简化模式的进一步分析
(以下权重亦指频率权重,平均权重指单字平均权重,单位为万分之一,%%)
1. 香港小学用字H-H’简化异码分析
简化异码记录 | 简化 | 条件简化 | 正形简化 | 异体简化 | 异体代换 | 条件异体代换 | 汉字正形 | 日本略字对应 | 日本国字对应 |
---|---|---|---|---|---|---|---|---|---|
1111 | 3 | 6 | 45 | 114 | 0 | 48 | 0 | 0 | |
排重 | 1019 | 2 | 6 | 41 | 104 | 0 | 42 | 0 | 0 |
总数 | 1327 of 3463 (38.32%) 此项按简化映射记录条数(排重之前)计算,以下按排重后Code计算 |
||||||||
比例 | 83.94% | 0.16% | 0.49% | 3.38% | 8.57% | 3.46% | |||
权重 | 3161.27 | 21.26 | 34.08 | 125.74 | 224.27 | 92.44 | |||
平均 | 3.10 | 10.63 | 5.68 | 3.07 | 2.16 | 2.20 |
2. 台湾国小用字T-T’简化异码分析
简化异码记录 | 简化 | 条件简化 | 正形简化 | 异体简化 | 异体代换 | 条件异体代换 | 汉字正形 | 日本略字对应 | 日本国字对应 |
---|---|---|---|---|---|---|---|---|---|
1511 | 3 | 6 | 63 | 194 | 4 | 55 | |||
排重 | 1491 | 3 | 6 | 62 | 188 | 4 | 55 | ||
总数 | 1836 of 5024 (36.54%) 此项按简化映射记录条数(排重之前)计算,以下按排重后Code计算 |
||||||||
比例 | 82.42% | 0.17% | 0.33% | 3.43% | 10.39% | 0.22% | 3.04% | ||
权重 | 3227.15 | 21.26 | 29.14 | 79.52 | 283.54 | 5.38 | 89.26 | ||
平均 | 2.16 | 7.09 | 4.86 | 1.28 | 1.51 | 1.35 | 1.62 |
3.日本常用字J-J’简化异码分析
简化异码记录 | 简化 | 条件简化 | 正形简化 | 异体简化 | 异体代换 | 条件异体代换 | 汉字正形 | 日本略字对应 | 日本国字对应 |
---|---|---|---|---|---|---|---|---|---|
418 | 2 | 0 | 10 | 49 | 0 | 14 | 162 | 2 | |
排重 | 415 | 2 | 0 | 10 | 48 | 0 | 14 | 160 | 2 |
总数 | 657 of 1947 (33.74%) 此项按简化映射记录条数(排重之前)计算,以下按排重后Code计算 |
||||||||
比例 | 63.75% | 0.31% | 1.54% | 7.37% | 2.15% | 24.58% | 0.31% | ||
权重 | 1731.01 | 21.26 | 13.24 | 177.25 | 32.61 | 601.82 | 23.82 | ||
平均 | 4.17 | 10.63 | 0.00 | 1.32 | 3.69 | 0.00 | 2.33 | 3.76 | 11.91 |
4. 韩国常用字K-K’简化异码分析
简化异码记录 | 简化 | 条件简化 | 正形简化 | 异体简化 | 异体代换 | 条件异体代换 | 汉字正形 | 日本略字对应 | 日本国字对应 |
---|---|---|---|---|---|---|---|---|---|
569 | 2 | 5 | 20 | 40 | 0 | 33 | 0 | 0 | |
排重 | 564 | 2 | 5 | 20 | 40 | 0 | 33 | 0 | 0 |
总数 | 669 of 1881 (35.57%) 此项按简化映射记录条数(排重之前)计算,以下按排重后Code计算 |
||||||||
比例 | 84.94% | 0.30% | 0.75% | 3.01% | 6.02% | 0% | 4.97% | ||
权重 | 2682.41 | 21.26 | 30.49 | 33.35 | 111.51 | 121.97 | |||
平均 | 4.76 | 10.63 | 6.10 | 1.67 | 2.79 | 0.00 | 3.70 |
5. 各国家/地区字集简化方式之比例(交叉对比)
从上图可以看到,主要的简化方式是《简化字总表》一二三表(本资料称作“简化”)。除日本之外,其它国家/地区的字表映射到简体语境时,这种简化方式占82.4%~85%; 其它三种主要方式依次是异体代换(6%~10%)、汉字正形(2%~5%)以及异体代换与简化的交叉(1.5%~3.4%),但是他们的比例要低于一般简化一个到两个数量级(注意上图纵轴是非线性对数刻度,每两条线之间差10倍)。
日本的特点是:一般简化方式比例要小一些,但缘于日本略字或国字对应的“简化异码”高达25%,即每四个简化异码中就有一个与此有关。
6. 各国家/地区字集各简化方式之频率权重(交叉对比)
本图进一步描绘了,除一般简化外,异体代换、汉字正形、日本略字和异体简化的作用。
7. 各国家/地区字集各简化方式之单字平均权重(交叉对比)
这幅图,从平均权重的角度,揭示了条件简化的重要性。下节将继续阐述之。
两组重要的条件简化的细节
一般的观念,误以为只有从简到繁的转换涉及一对多的问题;实际上,从繁到简也有同样的问题。从繁到简的一对多(或一代多)关系,数量虽少,但与各国家/地区都有关,且具有较高的使用频率。为此需要我们仔细地处理。
这一组映射,对各国家/地区而言,全都是一致的:同形同码、一对一映射,加上乾-干的有条件简化。而在另一组(著-著/着)则有比较复杂的情况。
在各国家/地区的字表中,
- H,T,K 的“著”的字形都是四笔草字头,微差同码映射到“著”; H则还有一个“著”的带点旧字形也要映射。
- J 的“著”的字形与中国同形同码;
- 除了T 完全没有“着”字, H,J,K 的“着”都是“无尾羊”字头(而非“歪尾羊” 字头),微差同码映射到“着”。
- 所有国家/地区的“著”都面临着“条件简化”到“着”。
- 而著/着都是甚高频的汉字。
大陆-台湾两组条件映射字的频率信息
以下引用海峡两岸的资料:台湾国小用字字频、书同文公司的语料库(2000-2003 年现代报刊)的统计信息以及国家语委《中国语言生活绿皮书》2005“报刊、广播电视、网络用字总表”的频率信息,举出了“条件简化”与“条件异体代换”的实例。
大陆-台湾两组条件简化汉字(乾干著着)的频序与字频
另外,台湾国小还有一个字,“頫”需要“条件简化”。但大陆目前尚无该字对应的标准编码简化字[兆页]。大陆方面目前暂缺乏该简化字的使用频度,但可知其关联字“俯”的信息:其现代字频为0.06458%%。参考台湾国小的字频,“頫”在国小字表中频序值为4736,频率值为0.8285%%;利用书同文数据库测算可知:“頫” 在古籍中频序值为4583,与台湾频序相当接近,频率为0.09347%%,其关联字“俯”的古籍字频为0.81298%%。
“頫”在书同文现代报刊语料中频率只有0.00059%%,相对于“著着乾干”等字的频率,影响相对低微。
大陆-台湾两组条件异体代换汉字(硅/矽,盘/槃)的频序与字频
在“条件异体代换”中,尽管“矽”相对于“硅”、“槃”相对于“盘”频序和频度都相当低,但是考虑到下列因素,我们还是把他们列入“条件异体代换”而不是简单的一对一异体代换:
- 在台湾,硅和矽的频度几乎相等;即使在大陆,使用“矽肺”和“矽钢片”几已约定成俗。
- “槃”在某些情况已是佛学专用字,“涅槃”不宜作“涅盘”。而且“槃”在古籍中频序位置较高,为3326,频率为0.20799%%。