《基于国际标准基本子集的两岸四地简繁异汉字对照表》网络校对平台
IICore两岸四地校对平台
独有字
大陆独有字
台港澳独有字
同码-对应字
一对一
一近一
异码-对应字
一转一
一对多
异码同码交叉-对应字
一代多
多对多
项目说明
项目缘起与宗旨
项目工作大纲
关于本工具
相关文件下载
项目工作大纲
a) Alpha版上线 2008-12-31
b) Beta1版 2009-02-10
c) Beta2 版 2009-02-28
d) V1.0版 2009- CDF第6次会议后
e) V2.0版 大陆规范汉字表颁布后一个月
-
1、表格分类:共8个表
- a) 无对应字 G-Unique, T-Unique,0:1, 1:0在M语境中没有定义的汉字(大陆《通用汉字表》之外),如某些不常用的、暂无对应编码简化字的繁体字,粤语用字。也称独有字。
- b) 同形同码 1y1,一对一 (一 = 一)
- c) 微差同码 1z1,一近一 (草 ≈ 草)
-
d) 简化异码
- 1x1 一转一 (车:車)
- 1xN 一对多 (发:發髮)
- 1xN+1 一代多 (注:注註)
- MxN 多对多 (著着:著,干乾:干乾,余馀:余餘)
-
2、字段定义:每一条记录包括下列字段
-
a) M语境:
- HanziM, 该汉字字形,用标准楷体字库表现,字库外用图形。
- UcodeM,该汉字Unicode
- PinyinM,该汉字的拼音加调(可能有多个音)
- RadicM,该汉字的部首(按大陆习用规则入部)
- StrokeM,该汉字的部首外笔画数
- CatelogM,该汉字的分类:常用/次常用/通用/外,HSK-x
- WordsM,该汉字对应的关联词语(重点在非一对多对照表)
- FreqM,该汉字在大陆的现代字频
- Option: 笔顺笔势图,跟随式笔顺,发声
-
b) T语境:
- HanziT, 该汉字字形,用台湾标准楷体字库表现,字库外用图形。
- UcodeT,该汉字Unicode
- PinyinT,该汉字的拼音加调(可能有多个音)
- RadicT,该汉字的部首(按港台习用规则入部)
- StrokeT,该汉字的部首外笔画数
- CatelogT,该汉字的分类:TW,HK1阶/2阶/外,MO
- WordsT,该汉字对应的关联词语(重点在非一对多对照表)
- FreqT,该汉字在台湾的现代字频
- Option:
-
a) M语境:
-
3、对应规则:
- a) 对于所有类型的对应关系字,都要呈现所处语境的典型字形,并列出字码。
-
b) 非一对多关系时,按下列规则对应:
- 按义对应:字义义项有异时,参照字的背景(词)按字义对应;
- 对应正体:字义义项无异时,若对应对象有正异之分,向所在语境的正体字对应;
- 高频对应:字义义项无异时,若对应对象无正异之分,向所在语境的高频字对应;
- 方向相关:在多对多关系(NxM)时,分列不同转换方向的对应关系 :简→繁 / 繁→简
-
4、呈现形式:
- a) 排印本(格式待定)
-
b) 网络版即网络校核平台 仿照书同文汉字网的“求同询异” http://hanzi.unihan.com.cn/CJKCompare/。
- 保留滚动条,如同“简繁对照”模式
- 保留基于Web的手写识别功能,与其它输入法并存帮助检索
- 查询功能与浏览功能并存
- 增加志愿者联机评论纠错功能
- 凡大陆常用规范字,提供笔顺笔势等详细信息
- 对于一对多、一代多、多对多的字和“独有字”,尽量链接有关联机字典的释义信息,以方便校对;而对于其他一对一、一近一、一转一的情形,则不再显示释义信息
-
5、工作基础文件
- a) ISO/IEC10646:2003 AMD1 http://www.cse.cuhk.edu.hk/~irg/irg/IICore/IICore.htm
- b) 《简化字总表》
- c) 《常用字表》
- d) 《通用字表》
- e) 《规范汉字表》(待新版发布后采用并作相应修改)
- f) 台湾《常用字表》
- g) 香港《小学字表》
- h) 《现代汉语词典》第5版
- i) 台湾《国语小字典》第二版
- j) 《中日韩常用汉字对比分析》http://hanzi.unihan.com.cn
- k) CCID 《基于UCS/Unicode的海峡两岸简繁异体汉字字形-代码对照表》V2.01版
- l) 《Vertical Unification of CJK Ideographs》
-
6、本对照表用途:
- a) 两岸四地语言文字政策微调之参考
- b) 改善文档简繁转换工具,特别地,将逐一指出微软目前版本采用对照表所需修正之处。
- c) 汉语教学(写简识繁、写繁识简)
- d) 中文域名解析
- e) 全文检索、搜索引擎关联字表
- f) 简繁输入工具(简入繁出、繁入简出),包括键盘输入,OCR,手写识别软件的输出候选汉字群遴选