(以下权重亦指频率权重,平均权重指单字平均权重,单位为万分之一,%%)
简化异码记录 | 简化 | 条件简化 | 正形简化 | 异体简化 | 异体代换 | 条件异体代换 | 汉字正形 | 日本略字对应 | 日本国字对应 |
---|---|---|---|---|---|---|---|---|---|
1111 | 3 | 6 | 45 | 114 | 0 | 48 | 0 | 0 | |
排重 | 1019 | 2 | 6 | 41 | 104 | 0 | 42 | 0 | 0 |
总数 | 1327 of 3463 (38.32%) 此项按简化映射记录条数(排重之前)计算,以下按排重后Code计算 |
||||||||
比例 | 83.94% | 0.16% | 0.49% | 3.38% | 8.57% | 3.46% | |||
权重 | 3161.27 | 21.26 | 34.08 | 125.74 | 224.27 | 92.44 | |||
平均 | 3.10 | 10.63 | 5.68 | 3.07 | 2.16 | 2.20 |
简化异码记录 | 简化 | 条件简化 | 正形简化 | 异体简化 | 异体代换 | 条件异体代换 | 汉字正形 | 日本略字对应 | 日本国字对应 |
---|---|---|---|---|---|---|---|---|---|
1511 | 3 | 6 | 63 | 194 | 4 | 55 | |||
排重 | 1491 | 3 | 6 | 62 | 188 | 4 | 55 | ||
总数 | 1836 of 5024 (36.54%) 此项按简化映射记录条数(排重之前)计算,以下按排重后Code计算 |
||||||||
比例 | 82.42% | 0.17% | 0.33% | 3.43% | 10.39% | 0.22% | 3.04% | ||
权重 | 3227.15 | 21.26 | 29.14 | 79.52 | 283.54 | 5.38 | 89.26 | ||
平均 | 2.16 | 7.09 | 4.86 | 1.28 | 1.51 | 1.35 | 1.62 |
简化异码记录 | 简化 | 条件简化 | 正形简化 | 异体简化 | 异体代换 | 条件异体代换 | 汉字正形 | 日本略字对应 | 日本国字对应 |
---|---|---|---|---|---|---|---|---|---|
418 | 2 | 0 | 10 | 49 | 0 | 14 | 162 | 2 | |
排重 | 415 | 2 | 0 | 10 | 48 | 0 | 14 | 160 | 2 |
总数 | 657 of 1947 (33.74%) 此项按简化映射记录条数(排重之前)计算,以下按排重后Code计算 |
||||||||
比例 | 63.75% | 0.31% | 1.54% | 7.37% | 2.15% | 24.58% | 0.31% | ||
权重 | 1731.01 | 21.26 | 13.24 | 177.25 | 32.61 | 601.82 | 23.82 | ||
平均 | 4.17 | 10.63 | 0.00 | 1.32 | 3.69 | 0.00 | 2.33 | 3.76 | 11.91 |
简化异码记录 | 简化 | 条件简化 | 正形简化 | 异体简化 | 异体代换 | 条件异体代换 | 汉字正形 | 日本略字对应 | 日本国字对应 |
---|---|---|---|---|---|---|---|---|---|
569 | 2 | 5 | 20 | 40 | 0 | 33 | 0 | 0 | |
排重 | 564 | 2 | 5 | 20 | 40 | 0 | 33 | 0 | 0 |
总数 | 669 of 1881 (35.57%) 此项按简化映射记录条数(排重之前)计算,以下按排重后Code计算 |
||||||||
比例 | 84.94% | 0.30% | 0.75% | 3.01% | 6.02% | 0% | 4.97% | ||
权重 | 2682.41 | 21.26 | 30.49 | 33.35 | 111.51 | 121.97 | |||
平均 | 4.76 | 10.63 | 6.10 | 1.67 | 2.79 | 0.00 | 3.70 |
从上图可以看到,主要的简化方式是《简化字总表》一二三表(本资料称作“简化”)。除日本之外,其它国家/地区的字表映射到简体语境时,这种简化方式占82.4%~85%; 其它三种主要方式依次是异体代换(6%~10%)、汉字正形(2%~5%)以及异体代换与简化的交叉(1.5%~3.4%),但是他们的比例要低于一般简化一个到两个数量级(注意上图纵轴是非线性对数刻度,每两条线之间差10倍)。
日本的特点是:一般简化方式比例要小一些,但缘于日本略字或国字对应的“简化异码”高达25%,即每四个简化异码中就有一个与此有关。
本图进一步描绘了,除一般简化外,异体代换、汉字正形、日本略字和异体简化的作用。
这幅图,从平均权重的角度,揭示了条件简化的重要性。下节将继续阐述之。
两组重要的条件简化的细节
一般的观念,误以为只有从简到繁的转换涉及一对多的问题;实际上,从繁到简也有同样的问题。从繁到简的一对多(或一代多)关系,数量虽少,但与各国家/地区都有关,且具有较高的使用频率。为此需要我们仔细地处理。
这一组映射,对各国家/地区而言,全都是一致的:同形同码、一对一映射,加上乾-干的有条件简化。而在另一组(著-著/着)则有比较复杂的情况。
在各国家/地区的字表中,
大陆-台湾两组条件映射字的频率信息
以下引用海峡两岸的资料:台湾国小用字字频、书同文公司的语料库(2000-2003 年现代报刊)的统计信息以及国家语委《中国语言生活绿皮书》2005“报刊、广播电视、网络用字总表”的频率信息,举出了“条件简化”与“条件异体代换”的实例。
大陆-台湾两组条件简化汉字(乾干著着)的频序与字频
另外,台湾国小还有一个字,“頫”需要“条件简化”。但大陆目前尚无该字对应的标准编码简化字[兆页]。大陆方面目前暂缺乏该简化字的使用频度,但可知其关联字“俯”的信息:其现代字频为0.06458%%。参考台湾国小的字频,“頫”在国小字表中频序值为4736,频率值为0.8285%%;利用书同文数据库测算可知:“頫” 在古籍中频序值为4583,与台湾频序相当接近,频率为0.09347%%,其关联字“俯”的古籍字频为0.81298%%。
“頫”在书同文现代报刊语料中频率只有0.00059%%,相对于“著着乾干”等字的频率,影响相对低微。
大陆-台湾两组条件异体代换汉字(硅/矽,盘/槃)的频序与字频
在“条件异体代换”中,尽管“矽”相对于“硅”、“槃”相对于“盘”频序和频度都相当低,但是考虑到下列因素,我们还是把他们列入“条件异体代换”而不是简单的一对一异体代换: