《基于国际标准基本子集的两岸四地简繁异汉字对照表》网络校对平台
项目缘起与宗旨
为了海峡两岸乃至全世界的华人在电脑网络时代更顺畅地信息沟通,追求更准确地、更便捷地进行中文信息的“简繁转换”,一直是中文数字化的热点和目标。
ISO/IEC 10646和Unicode/CJK突破了Code Page的藩篱,人们不必再过多地纠缠代码系到代码系(GB-Big5)的转换,这为中文在统一的平台内相互转换奠定了良好的基础。以微软Office简繁转换为代表的一批工具,以及嵌入在办公软件、搜索引擎、输入方法中的汉字关联机制,在一定程度上已经达到了实用的水平,在现实应用中起着重要的作用,这是无可否认的技术进步;但与此同时,这些转换(或映射,或关联)在处理某些问题上仍存在着这样那样的瑕疵,甚至严重的缺陷。这也是不争的事实。各种问题的症结,绝大多数与那些转换工具、引擎所采用的、隐藏着的“对照表”相关(当然也与转换算法有关)。
无论是为了文化传承与交流的目的,还是为了改进“简繁转换”软件的诉求,公众都呼唤着一套公开的、准确的、得到各方认可的汉字对照(映射)表。
受2008年10月在安徽合肥大学召开的第五届两岸四地中文数字化论坛(CDF-5)的启发,深感目前该项目已不缺泛论;所缺者,乃是扎扎实实地、逐字逐条地对两岸四地大中华地区现代语言生活的汉字分门别类地再做一梳理。该项目目前不仅有必要、而且已经有可能立即启动。
为了提供这样一套对照(映射)表,需要明确以下三点:
- 第一,取字限定在通用字的范围。鉴于国际标准汉字基本子集IIcore (International Ideographic Core )已经正式进入ISO/IEC 10646和Unicode,IIcore似是对字集最佳的界定。
- 第二,对照的语境,限定为两岸四地现代语言生活用字为主,而不涉及日韩语境,也不强调古今文字的关联。
- 第三,对照以单字为基础,仅在非简单一对一关系时才引入相关单字的关联词,不涉及深层语义、术语的转换对译(如数字化-數位化,激光-鐳射)。
为了摆脱政治的困扰、避免在简/繁、正/异问题上孰优孰劣,孰正孰异的褒贬评价之争,避免陷入个别汉字的无休止的学术探究,本项目宜尽量采用了一些中性的术语或代号,用数字化工程的方法,秉持“记录现状,公之于众,网络校勘,不断更新”的方针,期望作为“两岸四地中文数字化论坛”CDF的一项实用成果。
至于对照表可能揭示的问题(不合“理”之处),无论是借助文字政策的微调,或是凭藉人工智能的运用、软件工具的完善,相信绝大部分都是可以解决的;然而,那毕竟超出了本项目的范围。这套对照表,若能为“众矢之的”,最终成为“铺路之石”,也就达到了预定的目的。
本项目建议得到了一大批曾在ISO/IRG一起工作过的同事、CDF专家学者朋友的理解和鼓励,得到了教育部语信司的指导、特别是得到了中国网络中心CNNIC的支持,由北京书同文数字化技术有限公司的团队负责开发,上线维护。2009年元旦前后推出Alpha版,2009年元宵节后推出此Beta1版,列入书同文汉字网,供各方校改。其网址是:http://hanzi.unihan.com.cn/IICoreExt/。