CJK Ideographs Comparison

字汇对比-覆盖率统计及其频率权重

1. 覆盖率

  汉语水平考试用字HSK(汉办版) 现代汉语常用汉字表CY
共有Common 独有Unique 共有Common 独有Unique
台湾T’ 共有Common 2884   3422  
被CY-HSK覆盖率 60.49%   71.77%  
独有Unique 1884 21 1346 78
香港H’ 共有Common 2699   2937  
被CY-HSK覆盖率 87.12%   94.80%  
独有Unique 399 206 161 563
日本J’ 共有Common 1752      
被HSK覆盖率 91.25%      
独有Unique 168 1553    
韩国K’ 共有Common 1675      
被HSK覆盖率 94.15%      
独有Unique 104 1230    

(1)大陆常用字CY 及汉语水平考试用字HSK 分别与台湾国小用字的对比

a) 图T-CY

b) 图T-HSK

(2)内地常用字CY 及汉语水平考试用字HSK 分别与香港小学用字的对比

a) 图H-CY

b) 图H-HSK

(3) 汉语水平考试用字与日本常用汉字对比 (图J-HSK)

(4) 汉语水平考试用字与韩国常用汉字对比 (图K-HSK)

2. CY/HSK 覆盖/未覆盖各国家/地区字集诸区域在中国大陆现代报刊语料中的频率权重测算(数据表)

(1)台湾国小用字T’

T’-CY 现代汉语常用字表字数频率权重%%平均权重%%
共有 Common34229952.5592.908
CY 独有 Unique781.5490.020
T’独有 Unique134636.9880.027

T’-HSK(汉办版)字数频率权重%%平均权重%%
共有 Common28849904.20673.434
HSK 独有 Unique210.8690.041
T’独有 Unique188485.3410.045

台湾国小用字量最大,与大陆CY 共有部分频率权重高达99.52%。

T’的独有部分的汉字数量虽亦居首位。但无论是累积权重还是单字平均权重都处于相当低的水准,大约分别是千分之四到千分之九,百万分之三、四。这说明其在大陆现代语言生活中,影响甚微。在详细的对照表中,我们可以看到,那些T 独有的字,在台湾国小字表中,往往频序值都在3500 以后(等级标以35,49,45 或50)。

(2)香港小学用字H’

H’-CY 现代汉语常用字表字数频率权重%%平均权重%%
共有 Common29379890.5823.368
CY 独有 Unique56363.5260.113
H’独有 Unique1618.4610.053

H’-HSK(汉办版)字数频率权重%%平均权重%%
共有 Common26999865.3373.655
HSK 独有 Unique20639.7390.193
H’独有 Unique39933.7050.084

香港小学用字与内地CY 或HSK 都有良好的覆盖匹配,共有字多而独有字少,共有部分频率权重接近99%,而独有部分的单字平均权重仅十万分之一、二 。

(3)日本常用字J’

J’-HSK(汉办版)字数频率权重%%平均权重%%
共有 Common17528974.225.122
HSK 独有 Unique1153930.8560.807
J’独有 Unique16814.11170.084

J’-HSK(北语版)字数频率权重%%平均权重%%
共有 Common15368871.9435.776
HSK 独有 Unique668819.3071.227
J’独有 Unique384116.3880.303

汉办版的HSK 对日本常用汉字覆盖达90%,而这共有部分的权重已逼近90%。J’独有的汉字仅存168 个,且其平均权重不到十万分之一(0.084%%)。

(4)韩国常用字K’

K’-HSK(汉办版)字数频率权重%%平均权重%%
共有 Common16759127.6755.449
HSK 独有 Unique1230777.4020.632
K’独有 Unique10415.7260.151

K’-HSK(北语版)字数频率权重%%平均权重%%
共有 Common14919029.2346.056
HSK 独有 Unique713662.0170.928
K’独有 Unique288114.1670.396

汉办版的HSK 对韩国常用汉字覆盖更好,达94.75%,而这共有部分的权重已超过91%。K’独有的汉字仅存104 个,且其平均权重不到十万分之一点五(0.151%%)。

3. HSK 覆盖/未覆盖区域在中国大陆现代报刊语料中的频率权重图(交叉对比)

(1) HSK 覆盖/未覆盖区域频率权重

为了提高可比性,频率权重柱形图,都一律用HSK 的对比数据,将覆盖(共有-Common)/未覆盖(独有-Unique)区域对应的频率权重作了形象描述。

由于覆盖部分与其他部分的频率权重相当悬殊,所以上图纵轴采用了对数坐标;而平均单字的权重相差不大,仍然采用线形坐标。

很明显,各国家/地区的共有部分都已具有90%以上的频率权重,其中港台最高,处于98%~99%的高位,日韩则处于90%+-1%的水准。日韩的独有部分权重要低于共有部分三个数量级。但HSK 相对于日韩的独有字权重,仅低一个数量级,这是不能忽视的子集,为此,在分类对照表中,专门为HSK-Unique 单独列表。以便查阅。

(2) HSK 覆盖/未覆盖区域单字平均频率权重

共有部分汉字的单字平均权重越高,越说明选择学习这部分汉字的必要。

独立部分的单字权重显然平均起来低很多,但是,也有一些不可忽视的高频字被淹没了。比如HSK 相对于J 独有的之、于、也、你、们、厂等,都是中国现代汉语相当高频的汉字。