字形对比-字形异同统计及诸子集频率权重
1. J-J’、K-K’、T-T’、H-H’的字形异同统计及其在中国大陆现代语料中的频率权重(数据表)
同形同码 子集 |
微差同码 子集 |
简化异码 子集 |
总 计 | ||
---|---|---|---|---|---|
台湾 国小用字 T-T’ |
子集汉字记录数量 | 2396 | 792 | 1836 | 5024 |
子集汉字排重后 | 2389 | 792 | 1759 | 4759 | |
子集所占比例 | 47.69% | 15.76% | 36.54% | 100% | |
频率权重 %% | 5966.20 | 966.46 | 3628.67 | 9989.55 | |
平均权重 %% | 2.50 | 1.22 | 2.06 | ||
权重贡献率 | 59.72% | 9.67% | 36.32% | 100% | |
权重贡献相对指数 | 125.23% | 61.37% | 99.40% | ||
香港 小学用字 H-H’ |
子集汉字记录数量 | 1713 | 423 | 1327 | 3463 |
子集汉字排重后 | 1712 | 409 | 1165 | 3096 | |
子集所占比例 | 49.47% | 12.21% | 38.32% | ||
频率权重 %% | 6300.03 | 779.81 | 3444.34 | 9899.01 | |
平均权重 %% | 3.68 | 1.91 | 2.96 | ||
权重贡献率 | 63.64% | 7.88% | 34.79% | 100% | |
权重贡献相对指数 | 128.66% | 64.49% | 90.80% | ||
日本 常用汉字 J-J’ |
子集汉字记录数量 | 866 | 424 | 657 | 1947 |
子集汉字排重后 | 865 | 424 | 647 | 1920 | |
子集所占比例 | 44.48% | 21.78% | 33.74% | 100% | |
频率权重 %% | 5226.03 | 1404.68 | 2522.23 | 8988.33 | |
平均权重 %% | 6.04 | 3.31 | 3.90 | ||
权重贡献率 | 58.14% | 15.63% | 28.06% | 100% | |
权重贡献相对指数 | 130.72% | 71.76% | 83.16% | ||
韩国 常用汉字 K-K’ |
子集汉字记录数量 | 614 | 518 | 669 | 1801 |
子集汉字排重后 | 613 | 517 | 662 | 1779 | |
子集所占比例 | 34.09% | 28.76% | 37.15% | 100% | |
频率权重 %% | 4261.73 | 1990.90 | 2996.60 | 9143.40 | |
平均权重 %% | 6.95 | 3.85 | 4.53 | ||
权重贡献率 | 46.61% | 21.77% | 32.77% | 100% | |
权重贡献相对指数 | 136.72% | 75.71% | 88.23% |
下面有上述数据表各栏目的详细解释及数据表的图形表示。
各栏目注释:
- 子集汉字记录的数量:J、K、T、H 字集映射到简体语境,分别成为J’、K’、T’、H’后,形成的同形同码、微差同码、简化异码三种子集的汉字记录数量。
- 子集汉字排重后(汉字总数量):上述子集映射时可能产生的重码汉字归并后、在各子集内排重后的汉字总数。
- 子集所占比例:同形同码、微差同码、简化异码三种子集的汉字记录数量占J’、K’、T’或H’的比例。
- 频率权重%%:各子集在书同文“现代报刊语料”数据库中的累计频率值。
- 平均权重%%:上述频率权重除以子集汉字排重后的汉字数量。
- 权重贡献率:各频率权重除以该字集(J’、K’、T’、H’)的总权重贡献。
- 权重贡献相对指数:权重贡献率除以子集所占比例。
2. 各国家/地区之同形/微差/简化诸子集汉字比例(饼图)
(1)基于台湾国小用字的大陆-台湾字形对比
(2)基于香港小学用字的内地-香港字形对比
>
(3)基于日本常用汉字的中日汉字字形对比
(4)基于韩国常用汉字的中韩汉字字形对比
从以上饼图可以清晰地看出,虽然各国家/地区三类映射的比例各有不同,但是有一点是共同的:简化异码的比例大致在三分之一左右, 同形同码和微差同码加起来在三分之二左右。各国家/地区的差别主要表现在这三分之二的范围内、同形同码与微差同码的比例界限上。
可能毕竟属于同一语言的缘故, 港台与大陆汉字的微差同码的比例要小得多,仅12%~15%,而日韩字表与中国之间的微差同码则高达21%~28%。其中,韩国的微差同码比例最大(同形同码则相应较低),这和韩国完全沿用传统旧字形汉字可能有关。
3. 各国家/地区之同形/微差/简化诸子集汉字比例及权重贡献率(柱形图)
从上述柱形图,结合下节的“权重贡献指数”,我们可以看到各国家/地区另一个非常共同的现象,即:向简体语境映射时,
- 同形同码部分(绿色)不仅比率最高,而且其相对的权重贡献率也是最大,并且被“放大”了,他们的频率贡献比例超过它们自身比例的125%~136%;
- 简化异码部分(红色),其比率与其权重贡献是相称的,即权重指数略小于一(83%~99%);
- 微差同码部分(蓝色),其频率权重的贡献低于其自身的比例,其权重贡献指数大约在61%~75%之间。
这个事实提示我们,当我们讨论或研究中日韩汉字字形的差异的同时,必须注意到它们之间字形相同的那一部分的重要的、主导的作用。这是汉字文化圈文字相通的重要因素之一。
下面的图表是从另一个视角来描述这个共同点。
4. 各国家/地区之同形/微差/简化诸子集权重贡献率相对于子集大小比例的指数(柱形图)
上述权重贡献率指数可以比权重贡献率更清晰地说明:同形同码、微差同码和简化异码各子集,他们的相对权重率是否与他们自己的大小比例相称。
结论还是如同上一节。同形同码部分的指数高出一截,再次说明了中日韩各国家/地区“相同字形”的重要性:他们的比例虽只占一半,但权重贡献却被放大了三、四成。