CJK Ideographs Comparison

字形对比-字形异同统计及诸子集频率权重

1. J-J’、K-K’、T-T’、H-H’的字形异同统计及其在中国大陆现代语料中的频率权重(数据表)

  同形同码
子集
微差同码
子集
简化异码
子集
总 计
台湾
国小用字
T-T’
子集汉字记录数量 2396 792 1836 5024
子集汉字排重后 2389 792 1759 4759
子集所占比例 47.69% 15.76% 36.54% 100%
频率权重  %% 5966.20 966.46 3628.67 9989.55
平均权重  %% 2.50 1.22 2.06  
权重贡献率 59.72% 9.67% 36.32% 100%
权重贡献相对指数 125.23% 61.37% 99.40%  
香港
小学用字
H-H’
子集汉字记录数量 1713 423 1327 3463
子集汉字排重后 1712 409 1165 3096
子集所占比例 49.47% 12.21% 38.32%  
频率权重  %% 6300.03 779.81 3444.34 9899.01
平均权重  %% 3.68 1.91 2.96  
权重贡献率 63.64% 7.88% 34.79% 100%
权重贡献相对指数 128.66% 64.49% 90.80%  
日本
常用汉字
J-J’
子集汉字记录数量 866 424 657 1947
子集汉字排重后 865 424 647 1920
子集所占比例 44.48% 21.78% 33.74% 100%
频率权重  %% 5226.03 1404.68 2522.23 8988.33
平均权重  %% 6.04 3.31 3.90  
权重贡献率 58.14% 15.63% 28.06% 100%
权重贡献相对指数 130.72% 71.76% 83.16%  
韩国
常用汉字
K-K’
子集汉字记录数量 614 518 669 1801
子集汉字排重后 613 517 662 1779
子集所占比例 34.09% 28.76% 37.15% 100%
频率权重  %% 4261.73 1990.90 2996.60 9143.40
平均权重  %% 6.95 3.85 4.53  
权重贡献率 46.61% 21.77% 32.77% 100%
权重贡献相对指数 136.72% 75.71% 88.23%  

下面有上述数据表各栏目的详细解释及数据表的图形表示。

各栏目注释:

2. 各国家/地区之同形/微差/简化诸子集汉字比例(饼图)

(1)基于台湾国小用字的大陆-台湾字形对比

(2)基于香港小学用字的内地-香港字形对比

>

(3)基于日本常用汉字的中日汉字字形对比

(4)基于韩国常用汉字的中韩汉字字形对比

从以上饼图可以清晰地看出,虽然各国家/地区三类映射的比例各有不同,但是有一点是共同的:简化异码的比例大致在三分之一左右, 同形同码和微差同码加起来在三分之二左右。各国家/地区的差别主要表现在这三分之二的范围内、同形同码与微差同码的比例界限上。

可能毕竟属于同一语言的缘故, 港台与大陆汉字的微差同码的比例要小得多,仅12%~15%,而日韩字表与中国之间的微差同码则高达21%~28%。其中,韩国的微差同码比例最大(同形同码则相应较低),这和韩国完全沿用传统旧字形汉字可能有关。

3. 各国家/地区之同形/微差/简化诸子集汉字比例及权重贡献率(柱形图)

从上述柱形图,结合下节的“权重贡献指数”,我们可以看到各国家/地区另一个非常共同的现象,即:向简体语境映射时,

这个事实提示我们,当我们讨论或研究中日韩汉字字形的差异的同时,必须注意到它们之间字形相同的那一部分的重要的、主导的作用。这是汉字文化圈文字相通的重要因素之一

下面的图表是从另一个视角来描述这个共同点。

4. 各国家/地区之同形/微差/简化诸子集权重贡献率相对于子集大小比例的指数(柱形图)

上述权重贡献率指数可以比权重贡献率更清晰地说明:同形同码、微差同码和简化异码各子集,他们的相对权重率是否与他们自己的大小比例相称。

结论还是如同上一节。同形同码部分的指数高出一截,再次说明了中日韩各国家/地区“相同字形”的重要性:他们的比例虽只占一半,但权重贡献却被放大了三、四成。