CJK Ideographs Comparison

中日韩常用汉字对比分析报告_对比分析流程

总流程如下图所示。以下将逐一说明各环节的作用。

1. Encoding/Fonting/Classify

将各对比对象纳入ISO/IEC 10646 CJK框架,代码转换(如Big5-Unicode, TTE-Unicode,KSC - Unicode)、定码就位、进入数据库。形成J、K、T、H 字集库。在数据库中,记录每个原字表汉字的字形特征,实施“字形保真”和“等级标注”。

2. MappingToSimContext

将J、K、T、H 字集映射到简体语境,分别成为J’、K’、T’、H’。

从繁体语境向简体语境的映射,有的是“同码”的映射,有的则是“异码”的映射。对绝大多数映射而言,是一对一的关系;但也有多对一的情形;极少有一对多的关系。因此,映射的总结果,会使镜像字集J’、K’、T’、H’的独立Unicode编码汉字的个数略有减少。(但数据库的映射记录则会由于极个别一对多关系而增加两三条记录数。)

T-T’:映射后,集合字数从5021个收敛到4768个。

H-H’:映射后,集合从3460(字样数)归并到3283个(字数),最终收敛到H’的3098个(已排除重码)。

J-J’:映射后,集合字数从1945个收敛到1920个。

K-K’:映射后,集合字数从1799个(排出重码后)收敛到1779个。

这一道映射程序,是获得诸字集相对可比性的关键,是整个对比分析工作的重要基础。

3. Glyph Comparison-IDentifying

字形异同分析、标注(Glyph-ID)。根据汉字形态的变化,在数据库中逐条标记同形同码、微差同码和简化异码的关系。

4. SimMode

进一步对“简化异码”进行简化方式分析 、标注其简化模式(SimMode)。实际上,映射过程中的“简化”,是一个广义的概念,它包括下述各种不同的情况:

[注] 在图形坐标上,以上分类分别缩写为:简化,条简,正简,异简,异代,条异,正形,日略,国字。

5. Subsetting 子集切割

根据数据库的标注信息,可以将两两对比的字集的并集切割为多个独立的子集。

6. Subset Weight 子集权重测算

7. Statistics 统计分析印制图表字表