中日韩常用汉字对比分析报告_项目背景与目标
中日韩(CJK)各国家/地区的常用汉字表或教育用字表的颁布,均早于或平行于国际标准编码字符集ISO/IEC 10646 的制定。因此,在这些常用字表中,往往都没有汉字的国际标准代码。由于技术条件和应用目的的限制,许多传统的汉字分析对比工作往往有两个缺憾:一是未能在大范围同时准确地描绘两个或多个国家/地区常用汉字的字形特征;二是未能指明两个国家/地区的汉字之间的对应关系,说明他们的编码状态、认同与否、是否存在简繁异的关系?抑或只有微小的笔形差异?这对于汉字对外教学和多元汉字文化的交流,以及汉字软件的开发与应用,都多少造成了一些困扰。
本项目是以中国《现代汉语常用字表》为基础、辅以汉语水平考试HSK 字表,对照日韩和港台地区常用汉字或教育用字,采用ISO 习用的汉字认同规则,进行大陆-台湾、内地-香港、中-日、中-韩的汉字对比,提供一套比较完整、准确的基础资料,作为CJK 汉字统一编码的应用和补充,为汉字对外教学,特别是面向汉字文化圈的汉字教学提供有益的参考。
1. CJK 汉字统一编码的补充
中日韩汉字,属于同一文字体系,已是不争的事实。基于这一事实,从上个世纪九十年代初以来,经过各国文字专家与IT 专家十余年的共同努力,本着求同存异的精神,在国际标准ISO/IEC 10646 和工业标准Unicode 的框架内,制定了一整套汉字认同甄别的规则,全面完成了中日韩汉字的统一编码CJK UnifiedIdeographs 及Extension A 和B。目前,来自各个国家和地区标准的字符集、字表、字典中的逾七万汉字,已经得到了他们的国际身份证ID-国际标准代码。这是迄今汉字发展史上最大规模、最大范围的一次文字整理工作,也是汉字国际标准化的一个重要突破。随着CJK 汉字在计算机、移动设备、因特网的实现,CJK 统一编码汉字将会日益显露其对于信息技术、语言教育、文化交流的深远影响。
上述CJK 汉字统一编码,粗略地描述,是在一个所谓XYZ 三维空间进行的[注1]。这里,X 轴代表字义,Y 轴代表字形(Generic Glyph,或Abstract Glyph) [注2],Z 轴代表具体的造型(文字专家习惯用“字样”和“字体”这样的术语来称各种字型)。CJK 汉字统一编码,就是把具有相同抽象字形的汉字聚集在一起赋予相同的代码;换言之,CJK 汉字的认同是在Y 轴上进行的,而不是基于字义(X 轴)和具体造型(Z 轴)进行的。与此相关的,有两个悬而未决的问题:
- (1) CJK 汉字认同之后,尚未进行简繁异体字或者新旧字形汉字在字义层次上(X 轴上)的关联标注。
- (2) 大批具有微小差异的汉字被认同了,比如具有新旧字形的草字头、走之旁的汉字;但是也有些本来应当认同的汉字,它们只在笔形上有微小的差异,或者Z 轴上的微小变异,然而,为了兼容已有信息编码标准的需要,一个称作“源字集分离”(Source Code Separation)的例外处理规则[注3],使他们在国际标准中被分别编码了。比如,説-說,吴-吳,决-決,吕-呂在标准中都当作了“不同的汉字”,由于他们属于高频字,其分别编码的副作用不可小觑。
- 对于CJK 汉字的应用和推广而言,这也是需要进一步完善的基础工作。换言之,迄今为止,CJK 统一编码做的是“水平认同”,而现在需要进一步做一些双语境、多语境的“垂直认同”的工作或“垂直标注”的工作。[注4]
2. 中文汉字教学的辅助
汉字因在时空(中日韩,港澳台,教科书、报刊媒介、古籍)的不同而可能有各种不同的呈现(Presentation)。具体的汉字造型,具有很强的民族性、地域性和时代特征。而各种汉字造型往往以某一电脑字库(Font)为代表,不同字库在风格上、笔形上会有很大的差异,但都遵从各个国家/地区相应的规范。
为了高效地教好各类学生识读书写中国规范汉字,必须遵循“因材施教”的原则,按不同的学生类别对字形结构、规范笔画、规范笔顺进行教授,而不能千篇一律地照搬小学语文教材。实际上,教学对象无非是这两大类:没有汉字基础的对象(儿童,欧美学生)和有汉字基础的培训对象(日本、韩国、港澳台学生和受过港台汉字培训的外国人)。他们的基础和需求是有很大差别的,所以相应的教案也应细分。
对于有汉字基础的学生,显然没有必要一字一字地从头教起。教师的责任,首先要给他们以信心,告诉学生:他们已掌握的汉字在字形上有近一半与规范汉字是相同的,另有八分之一到四分之一仅有微小的差异,只有另外三分之一(强)是需要简化、正形或选用另一个异体字来代换。而所有的差异都有一定的规律性,不难掌握。
对初学和普通的书写,没必要苛求细微的差别;但绝不能因此而忽视汉字字形、笔形的差异。特别地,本资料所列举的大都是常用字(高频字),对于跨语言环境的学生而言,这一点尤为重要。比如,一笔之差可以改变一个字的属性,可能使他们在电脑上不能输入自己的常用字(如説-說,吴-吳),或者引起误解(如壳-売),或者在查字典时绕道其他的部首(如决-決)。当今,即使电脑的输入技术已经能相当容忍一定的书写偏差,但OCR 或手写输入对笔形的变异和笔画的多寡还是相当敏感的。
本项目的目标,就是要方便师生们浏览和查阅这些汉字的异同,希望起到辅助的作用。初步的用户反馈是,这些资料不仅对学习中国大陆的规范汉字有益;反过来,对中国大陆的人士学习其他国家/地区的汉字文化也有帮助。
3. 本项目也是中文信息技术开发的基础项目
事实上,本项目对于字库开发、多语境汉字键盘输入、手写识别、OCR 引擎开发、简繁精密转换、跨语境简繁异关联检索、辞书编纂等项目,也都有重要的参考价值。本项目是由长期从事中日韩汉字统一编码工作的国际标准化组织汉字组(IRG)前召集人张轴材提出并主持编著,在教育部语言文字信息管理司的支持与指导下,依托北京书同文数字化技术有限公司,开展中日韩大范围多边合作完成的。