字汇对比-覆盖率统计及其频率权重
1. 覆盖率
汉语水平考试用字HSK(汉办版) | 现代汉语常用汉字表CY | ||||
---|---|---|---|---|---|
共有Common | 独有Unique | 共有Common | 独有Unique | ||
台湾T’ | 共有Common | 2884 | 3422 | ||
被CY-HSK覆盖率 | 60.49% | 71.77% | |||
独有Unique | 1884 | 21 | 1346 | 78 | |
香港H’ | 共有Common | 2699 | 2937 | ||
被CY-HSK覆盖率 | 87.12% | 94.80% | |||
独有Unique | 399 | 206 | 161 | 563 | |
日本J’ | 共有Common | 1752 | |||
被HSK覆盖率 | 91.25% | ||||
独有Unique | 168 | 1553 | |||
韩国K’ | 共有Common | 1675 | |||
被HSK覆盖率 | 94.15% | ||||
独有Unique | 104 | 1230 |
(1)大陆常用字CY 及汉语水平考试用字HSK 分别与台湾国小用字的对比
a) 图T-CY
b) 图T-HSK
(2)内地常用字CY 及汉语水平考试用字HSK 分别与香港小学用字的对比
a) 图H-CY
b) 图H-HSK
(3) 汉语水平考试用字与日本常用汉字对比 (图J-HSK)
(4) 汉语水平考试用字与韩国常用汉字对比 (图K-HSK)
2. CY/HSK 覆盖/未覆盖各国家/地区字集诸区域在中国大陆现代报刊语料中的频率权重测算(数据表)
(1)台湾国小用字T’
T’-CY 现代汉语常用字表 | 字数 | 频率权重%% | 平均权重%% |
---|---|---|---|
共有 Common | 3422 | 9952.559 | 2.908 |
CY 独有 Unique | 78 | 1.549 | 0.020 |
T’独有 Unique | 1346 | 36.988 | 0.027 |
T’-HSK(汉办版) | 字数 | 频率权重%% | 平均权重%% |
---|---|---|---|
共有 Common | 2884 | 9904.2067 | 3.434 |
HSK 独有 Unique | 21 | 0.869 | 0.041 |
T’独有 Unique | 1884 | 85.341 | 0.045 |
台湾国小用字量最大,与大陆CY 共有部分频率权重高达99.52%。
T’的独有部分的汉字数量虽亦居首位。但无论是累积权重还是单字平均权重都处于相当低的水准,大约分别是千分之四到千分之九,百万分之三、四。这说明其在大陆现代语言生活中,影响甚微。在详细的对照表中,我们可以看到,那些T 独有的字,在台湾国小字表中,往往频序值都在3500 以后(等级标以35,49,45 或50)。
(2)香港小学用字H’
H’-CY 现代汉语常用字表 | 字数 | 频率权重%% | 平均权重%% |
---|---|---|---|
共有 Common | 2937 | 9890.582 | 3.368 |
CY 独有 Unique | 563 | 63.526 | 0.113 |
H’独有 Unique | 161 | 8.461 | 0.053 |
H’-HSK(汉办版) | 字数 | 频率权重%% | 平均权重%% |
---|---|---|---|
共有 Common | 2699 | 9865.337 | 3.655 |
HSK 独有 Unique | 206 | 39.739 | 0.193 |
H’独有 Unique | 399 | 33.705 | 0.084 |
香港小学用字与内地CY 或HSK 都有良好的覆盖匹配,共有字多而独有字少,共有部分频率权重接近99%,而独有部分的单字平均权重仅十万分之一、二 。
(3)日本常用字J’
J’-HSK(汉办版) | 字数 | 频率权重%% | 平均权重%% |
---|---|---|---|
共有 Common | 1752 | 8974.22 | 5.122 |
HSK 独有 Unique | 1153 | 930.856 | 0.807 |
J’独有 Unique | 168 | 14.1117 | 0.084 |
J’-HSK(北语版) | 字数 | 频率权重%% | 平均权重%% |
---|---|---|---|
共有 Common | 1536 | 8871.943 | 5.776 |
HSK 独有 Unique | 668 | 819.307 | 1.227 |
J’独有 Unique | 384 | 116.388 | 0.303 |
汉办版的HSK 对日本常用汉字覆盖达90%,而这共有部分的权重已逼近90%。J’独有的汉字仅存168 个,且其平均权重不到十万分之一(0.084%%)。
(4)韩国常用字K’
K’-HSK(汉办版) | 字数 | 频率权重%% | 平均权重%% |
---|---|---|---|
共有 Common | 1675 | 9127.675 | 5.449 |
HSK 独有 Unique | 1230 | 777.402 | 0.632 |
K’独有 Unique | 104 | 15.726 | 0.151 |
K’-HSK(北语版) | 字数 | 频率权重%% | 平均权重%% |
---|---|---|---|
共有 Common | 1491 | 9029.234 | 6.056 |
HSK 独有 Unique | 713 | 662.017 | 0.928 |
K’独有 Unique | 288 | 114.167 | 0.396 |
汉办版的HSK 对韩国常用汉字覆盖更好,达94.75%,而这共有部分的权重已超过91%。K’独有的汉字仅存104 个,且其平均权重不到十万分之一点五(0.151%%)。
3. HSK 覆盖/未覆盖区域在中国大陆现代报刊语料中的频率权重图(交叉对比)
(1) HSK 覆盖/未覆盖区域频率权重
为了提高可比性,频率权重柱形图,都一律用HSK 的对比数据,将覆盖(共有-Common)/未覆盖(独有-Unique)区域对应的频率权重作了形象描述。
由于覆盖部分与其他部分的频率权重相当悬殊,所以上图纵轴采用了对数坐标;而平均单字的权重相差不大,仍然采用线形坐标。
很明显,各国家/地区的共有部分都已具有90%以上的频率权重,其中港台最高,处于98%~99%的高位,日韩则处于90%+-1%的水准。日韩的独有部分权重要低于共有部分三个数量级。但HSK 相对于日韩的独有字权重,仅低一个数量级,这是不能忽视的子集,为此,在分类对照表中,专门为HSK-Unique 单独列表。以便查阅。
(2) HSK 覆盖/未覆盖区域单字平均频率权重
共有部分汉字的单字平均权重越高,越说明选择学习这部分汉字的必要。
独立部分的单字权重显然平均起来低很多,但是,也有一些不可忽视的高频字被淹没了。比如HSK 相对于J 独有的之、于、也、你、们、厂等,都是中国现代汉语相当高频的汉字。