CJK Ideographs Comparison

简化模式的进一步分析

(以下权重亦指频率权重,平均权重指单字平均权重,单位为万分之一,%%)

1. 香港小学用字H-H’简化异码分析

简化异码记录 简化 条件简化 正形简化 异体简化 异体代换 条件异体代换 汉字正形 日本略字对应 日本国字对应
1111 3 6 45 114 0 48 0 0
排重 1019 2 6 41 104 0 42 0 0
总数 1327 of 3463 (38.32%)
此项按简化映射记录条数(排重之前)计算,以下按排重后Code计算
比例 83.94% 0.16% 0.49% 3.38% 8.57%   3.46%    
权重 3161.27 21.26 34.08 125.74 224.27   92.44    
平均 3.10 10.63 5.68 3.07 2.16   2.20    

2. 台湾国小用字T-T’简化异码分析

简化异码记录 简化 条件简化 正形简化 异体简化 异体代换 条件异体代换 汉字正形 日本略字对应 日本国字对应
1511 3 6 63 194 4 55    
排重 1491 3 6 62 188 4 55    
总数 1836 of 5024 (36.54%)
此项按简化映射记录条数(排重之前)计算,以下按排重后Code计算
比例 82.42% 0.17% 0.33% 3.43% 10.39% 0.22% 3.04%    
权重 3227.15 21.26 29.14 79.52 283.54 5.38 89.26    
平均 2.16 7.09 4.86 1.28 1.51 1.35 1.62    

3.日本常用字J-J’简化异码分析

简化异码记录 简化 条件简化 正形简化 异体简化 异体代换 条件异体代换 汉字正形 日本略字对应 日本国字对应
418 2 0 10 49 0 14 162 2
排重 415 2 0 10 48 0 14 160 2
总数 657 of 1947 (33.74%)
此项按简化映射记录条数(排重之前)计算,以下按排重后Code计算
比例 63.75% 0.31%   1.54% 7.37%   2.15% 24.58% 0.31%
权重 1731.01 21.26   13.24 177.25   32.61 601.82 23.82
平均 4.17 10.63 0.00 1.32 3.69 0.00 2.33 3.76 11.91

4. 韩国常用字K-K’简化异码分析

简化异码记录 简化 条件简化 正形简化 异体简化 异体代换 条件异体代换 汉字正形 日本略字对应 日本国字对应
569 2 5 20 40 0 33 0 0
排重 564 2 5 20 40 0 33 0 0
总数 669 of 1881 (35.57%)
此项按简化映射记录条数(排重之前)计算,以下按排重后Code计算
比例 84.94% 0.30% 0.75% 3.01% 6.02% 0% 4.97%    
权重 2682.41 21.26 30.49 33.35 111.51   121.97    
平均 4.76 10.63 6.10 1.67 2.79 0.00 3.70    

5. 各国家/地区字集简化方式之比例(交叉对比)

从上图可以看到,主要的简化方式是《简化字总表》一二三表(本资料称作“简化”)。除日本之外,其它国家/地区的字表映射到简体语境时,这种简化方式占82.4%~85%; 其它三种主要方式依次是异体代换(6%~10%)、汉字正形(2%~5%)以及异体代换与简化的交叉(1.5%~3.4%),但是他们的比例要低于一般简化一个到两个数量级(注意上图纵轴是非线性对数刻度,每两条线之间差10倍)。

日本的特点是:一般简化方式比例要小一些,但缘于日本略字或国字对应的“简化异码”高达25%,即每四个简化异码中就有一个与此有关

6. 各国家/地区字集各简化方式之频率权重(交叉对比)

本图进一步描绘了,除一般简化外,异体代换、汉字正形、日本略字和异体简化的作用。

7. 各国家/地区字集各简化方式之单字平均权重(交叉对比)

这幅图,从平均权重的角度,揭示了条件简化的重要性。下节将继续阐述之。

两组重要的条件简化的细节

一般的观念,误以为只有从简到繁的转换涉及一对多的问题;实际上,从繁到简也有同样的问题。从繁到简的一对多(或一代多)关系,数量虽少,但与各国家/地区都有关,且具有较高的使用频率。为此需要我们仔细地处理。

这一组映射,对各国家/地区而言,全都是一致的:同形同码、一对一映射,加上乾-干的有条件简化。而在另一组(著-著/着)则有比较复杂的情况。

在各国家/地区的字表中,

大陆-台湾两组条件映射字的频率信息

以下引用海峡两岸的资料:台湾国小用字字频、书同文公司的语料库(2000-2003 年现代报刊)的统计信息以及国家语委《中国语言生活绿皮书》2005“报刊、广播电视、网络用字总表”的频率信息,举出了“条件简化”与“条件异体代换”的实例。

大陆-台湾两组条件简化汉字(乾干著着)的频序与字频

另外,台湾国小还有一个字,“頫”需要“条件简化”。但大陆目前尚无该字对应的标准编码简化字[兆页]。大陆方面目前暂缺乏该简化字的使用频度,但可知其关联字“俯”的信息:其现代字频为0.06458%%。参考台湾国小的字频,“頫”在国小字表中频序值为4736,频率值为0.8285%%;利用书同文数据库测算可知:“頫” 在古籍中频序值为4583,与台湾频序相当接近,频率为0.09347%%,其关联字“俯”的古籍字频为0.81298%%。

“頫”在书同文现代报刊语料中频率只有0.00059%%,相对于“著着乾干”等字的频率,影响相对低微。

大陆-台湾两组条件异体代换汉字(硅/矽,盘/槃)的频序与字频

在“条件异体代换”中,尽管“矽”相对于“硅”、“槃”相对于“盘”频序和频度都相当低,但是考虑到下列因素,我们还是把他们列入“条件异体代换”而不是简单的一对一异体代换: