汉字系统工程的计量研究

2.1 首尾检字法、部首与字义相关度 2.2 形声字音转、声兼义初探

汉字演进的趋势，自图绘经甲金文、篆文、隶书到楷书，字体逐渐蜕变，字形大体趋向简易。但与拼音文字比较，汉字字元(部件)多，字元间的结合方式复杂；无论是字典检字，或编码作计算机输入，均不如西文方便。另一方面国家虽已制定了标准字体，实际应用时仍有不少异体字在流行，这也增加了汉字学习的负担。

笔者多年来研究汉字的结构及形码输入法的结果，认为汉字必须现代化，方可配合目前国家现代化的需求。所谓现代化应有如下的含义:

标准化：汉字的基本单位(字元)，应该标准化；由字元构成的通用字 (包括常用字及部分次常用字)，也应该标准化；相关的异体字应加以整理;并从其中选出一个合乎现代化的标准字形。

科学化：科学化的定义便是高效率；文字是观念的符号，花同一功夫能收到的效果大，便合乎科学。举例来说，古人表达鼓声，便创造出"鼕"字，为表达锣声，便发明"镗"字。今人则用咚、当来表达任何发声器发出的相似声音。咚、当二字自较鼕镗二字有较大的效用。又如古人对于马的称呼，常因毛色差异而有不同的名称：骍/赤黄，骓/苍白杂色，骐/青黑，骢/青白夹杂，骊/纯黑，驖/赤黑。在现代人看来，这是不必要的，因此这些字也大部分被淘汰了。

信息化：目前汉字的计算机输入虽有多种方式，但都未臻完美，用拼音法同码太多；采用数字取字形的边角，总觉得把汉字弄得支离破碎；使用字形分解法编码，也因汉字的复杂结构，需花很多时间学习并记忆。笔者多年来研究汉字计算机输入，并曾发明 <汉字字元输入法>，也觉得有欠理想。归根结底，这是汉字的基本结构问题。如何改进汉字的基本结构，使它更适合信息化的要求，是汉字现代化的重要课题之一。

实用化：书法是一种艺术，字形可以有较多的变化；实用的文字则必须有统一的字形结构，而且要"楷"化。(当然字形的匀称也是一种美，在制字时须加考虑)。另一个更实际的问题是：我们需要一个比目前更方便的检字方式。因此如何设定部首，使汉字归部有个统一的标准，也是汉字现代化的研究重点。

1. 助记忆时期 (相当于我国古代的结绳)	2. 图绘时期 (相当于象形)
3. 标义时期 (相当于会意)	4. 标音时期 (形声也算是一种标音方式)

如果把汉字六书的发展与上述世界性的文字演进时期配合，则可得如下简图 :

由上述文字演进的图解可知，指事介于象形与会意之间，可认为简易的推理，即会意。假借是一音(字)数用，但假借久了便加上形符，以示区别；那加上形符的字便成为形声字。例如"采"从爪从木原意摘取，以后假借表色采，再后为着区别，乃各加形符而成"採、彩"二形声字。转注实际上是"意义相通的字"的相互注解。因此有些文字学家主张将六书简化为三书，以解释汉字的演进。这样汉字与世界其它文字一样，也经历了上述典型的四个时期的发展。

依统计，形声字约占汉字85% 以上，可知汉字已进入文字发展的最末阶段，但是形声字因古今变读的关系，大部分已失却标音的功能。又因汉字同音多，使它转化为纯拼音文字并非容易。因此汉字现代化应在传统及现行的基础上进行。换言之，大部分 (约80%) 汉字应保持不变，其它则逐渐予以合理化，也就是古人所说的以"八分" 保留的方式逐步改进。

甲骨文--汉字已有约 6,000 年的历史，可由近年发现的陶器和墓葬的甲骨文字(如1973年在西安半坡出土的陶片)推知。甲骨文为殷代古字，可用于补正后来说文的缺误。

大篆--古文为春秋战国时的东方文字；大篆则为当时的西方(秦国)文字。例如李斯的 <仓颉篇>，其字数约 3300 个；杨雄、班固的 <仓颉续篇>，其字数则增至约 6,000 字。仓颉三篇内谈的都是日常事物，当时是用来教学儿童的。

小篆--「说文」用的字体便是小篆，共有 9,353字。其来源有的出于孔子壁中书，春秋左传的古文；有的出于史籀篇的大篆；也有的出于汉代的字书。

隶书--最早在石上刻字的「石鼓文」近似大篆；汉以后刻石的字体多为隶书。相传隶书的制作人是程邈。

楷书--汉章帝时王次仲作楷书，楷书也叫做真书。棣楷之变是在毛笔发明之后才发生的。书写工具的演进显然对字体的改变起了关键性的作用。

在汉字演进的过程中，形符的简化，具体图象的抽象化，表示一种进步。例如帆原从风舟，表示帆因风而推舟，这是具体的描述；其后创制形声字帆，以巾表材料，以凡表声。又如'龜'表甲壳上的细纹，算是工笔画；'龟'则绘出它的轮廓，是写意画，而后者较前者容易学习。

文字由具体而抽象的例子不胜枚举：龢 -> 和，龤 -> 谐 …。以乐器"龠"为部首的字，已逐渐被较简单的形符"口、言"所取代，这是简化，也是进步。以鼕、鼚、鼞表达不同的鼓声，是很具象但也是很笨的方法，今用咚当等从口的字来表示任何类似的声音，这就提高了文字的效能。

a. 基本结构的简化 : 如阜 ->阝邑 ->阝

b. 象形的声化 : 如鳳，从鸟凡，不必另造象形字；现又简化作凤。

c. 声符的简化 : 證 => 証(证)

d. 省形或省声 : 如考孝从老省，屐屦从履省，岛袅从鸟省，度席从庶省。

e. 异形同化 : 如寺原从ㄓ寸，后ㄓ简为士；又如思原从囟心，后囟简为田。

本研究的取样范围包括海峡两岸通用字共 7,380 个。其中包括 1986台湾公布的常用字 5,401，次常用字 1,716个(简称台规)；以及 1988大陆公布的 <现代汉语通用字表> 7,000个(简称陆规)。以繁简并列的方式，共得 7378 个。新编部首检字的研究，其取样范围，则扩及包括海峡两岸已公布的，全部标准常用字及次常用字(约20,000字)。在样本 7,378字中有267字为"简一繁多"的情况，也就是一个简化字相当于二个以上的繁体字，例如: 杯/杯盃、板/板闆、蒙/蒙濛矇、台/台臺檯颱。

所谓 "常用字" 的取舍，两岸各有一套衡量的标准，陆规 7,000 个通用字中，有 261 个不在台规 13,051 标准字内。另有 111 个台规的常用字，不在陆规7,000 通用字内。

	陆规常用字	陆规次常用字	陆规外	简一繁多	合计
台规常用字	3450 (c)	1573 (e)	111(a)	267 (r)	5401 (台常)
台规次常用字	47 (b)	1669 (d)			1716 (台次常)
台规外	3 (g)	258 (f)			261 (台规外)
合计	3500(陆规常)	3500(陆规次常)	111	267	7378 (样本)

由上表归纳，本样本 7,378字，包括了大陆规范的常用字 3,500，次常用字 3,500；及台湾规范的常用字5,401，及次常用字 1716字，就一般通用字言，可算是具有相当代表性了。

依现代汉语频率词典的统计，在语料 180万字中，共收词条 31,159个，用了 4,574字，其中一级常用字 3,755 个已含盖 99.9% 的词条，词与字之比为 5.8。1987大陆语委会就 3,500 常用字，以 200万语料作抽样检验，其覆盖率达 99.48%。

2002年由北京资讯工程学院陈一凡、朱亮，从5千余万字当代语料中，对GB13000.1字符集20,902字和88,102条词语进行了流通频度统计。其结果总共用到的汉字为7,330个，GB 13000.1字符集2万多字中有13,572个未出现。因此，就通用字来说，本研究的取样，应是充分的。

由于汉语音节只有 417 个，同音字多，复音词势必增加，才不致使语意混洧不清。又随着社会的进化，新事物不断产生，复音词也不断的创造。但绝大部分的新词，也可用现成的单字(词素)组成。汉字现代化的研究主题是"字"，"词"不在本研究范围之内。

a. 创立新的检字准则，简化部首的数量，建议从汉字的首尾字元中选定部首，以利汉字的检索。

b. 分析汉字结构，确定字形切分法则，从而拟定标准的字元(部件)及字码，以改善计算机的形码输入法。

c. 研究形声字的声韵转换，从统计资料中，寻找若干声变法则; 建议提升形声字功能的方法。

a. 拟定汉字笔画、字符及字形结构标准化的规律，从而拟定通用字标准的宇元(部件)、形符(部首)及声符(声旁)，以便记忆，而利学习。

b. 从现行的繁、简体中，选用或改进成为一套标准字体，以能发挥汉字的特色，及其固有功能为主。也就是说把通用字分为两大类: 其一是形意字，包括象形或会意，可用浅显的语言说出制字的道理，(不一定要依据字源说)。其二是形声字，包含一个容易辨认的部首，一个与读音接近的声符。

当然这些目标绝不是笔者个人力量所能完全达成的，笔者只是在此提供一些拟案，一种愿望而已。尚请有志之士，共同努力，并多加批评指教。

研究的基本方式有二 : 统计的 (Statistical)，宏观的 (Macroscopic)。

1. 统计的：因为文字是约定俗成的，必须依据现有的文字数据，不厌其烦的，加以分析统计，从统计中获得若干规则及结论。例如形声字声符的音转，汉字字形结构的分类，部首的省拼…都需要把全部通用字，一一加以分析、统计与研究。

2. 宏观的：研究的目的既然是使汉字标准化，科学化，实用化，以达到易学易用的目标，就必须在传统的基础上创新。要有回顾历史及展望未来的眼光，所有研究的拟案，都要使用统一的准则、规范，并适用于繁体及简化字。

3. 计算机程序：研究的结论，主要来自样本通用字 7378 的分析与统计。因所处理的数据庞大，常须籍助若干软件程序计算。以下是使用的主要程式:

pm1:韵母转韵 pm2: 声母转声 pm3: 繁简差异 pm4：声符定性 pm5: 声符分韵: pm7:声母分档

pm16：部首 pm19：笔画计算 pm22：结构分析 pm23：同音字 pm31求部件 pm38:部件编码

汉字部首可定位在字头或字尾二个位置：先行书写的字元，谓之字头; 最后书写的字元，谓之字尾。比较首尾字元结构的权重，以定部首的方法，即所谓 "汉字首尾部首检字法"。由此确定了部首的位置:不是字头，便是字尾，(这是定性); 设定的汉字部首，自传统的 214 部，浓缩为 175部，(这是定量)。再拟定一套逻辑程序，选择部首检字。大部分汉字可凭直觉观察字形，比较字头与字尾的权重后，即可检得。所选出的部首，大都代表该字的意符，与一般辞书的编部相差很少，本检字法可行性高。

笔者又把 175 部首，依其通义分为八大类：如天文、地象、禽兽、植物…，再把单字的字义，逐一与部首之通义对照，统计其相关度。结果发现在 7294字中，字义有些相关的，高达 6243字，平均相关度达 86%

由样本 7378 通用字中,得出形声字 6405个;若不计及四声(阴平、阳平、上声、去声)，及四呼(开口、齐齿、合口、撮口)的变化，声符与其本字读音，经综合统计比较如次表：

由上表可知声符与其本字读音，保持一致者约占58%。韵母相同者约 83%，声母相同者为 64%，声变较韵变为大；声符表音的功能仅约 53%(0.83x0.64)。若计及声调及介音的差异,则远低于此数。

声韵全同、韵同声近者，约占字数的 71%，保持着形声字若干的表音功能，是较理想的汉字形态。

文中统计了个别声母及韵母音转的频率，并提出若干解说。依据音变的统计，参以汉语语音史的探索，及某些方言的考察，当可获得一些汉字声韵转换的规律。此外，笔者对「声兼义」问题，也作了概括性的初探，其目的在了解少数汉字字义与语音之间的关联，提升学习兴趣，因为汉字有些理据可解的，总比全无可解的好。

通用字结构可概分为:独体型(O)、左右型(A类)、上下型(B类)、包围型(C类)、复迭型(D类)五类。除独体型外，每类各有若干构式。7378字繁简体构式的比较如次表：

由上表可知，简化字的复迭型结构只占 6%。而繁体的复迭型结构则增为 11%，可知简化字对于精简汉字的字型结构有相当的助益。

本篇「通用字部件规范拟案」中所设定的 322个字元(部件)，乃从 7378通用字(含繁简体)，经字型结构分析并统计后而得的结果，可用于「形码输入法」的码元。

字元输入法设定码元 322 个(198组)，适用于繁简体，具有相同的输入法则，所不同的是设计的部分码元，因繁简字形不同而略有差异，繁简体各有专用码元数个。字元输入法的主要规则为：

3. 被囗(W)或冂(M)所包围的字元可省略，但整字不及4码者，应补足 4码。

本篇中「汉字字元化」一章，乃讨论汉字字形统一、优化，及字元合理化等问题。就两岸目前通行的规范字 7378 个言，前述拟定的字元(部件)，应可概括所有的通用字。

目前台海两岸各自颁布了通用字规范，本篇主要在讨论两岸规范的统合问题。首先要分析的，是繁简体的差异，究竟有多大? 依样本 7378 字之统计 –

繁简体字形差异类别(参见附图2) 例字字数 %

0 完全相同： (略) 4700 64

1 只笔划略有不同：戶/户呂/吕別/别敢/敢奐/奂勻/匀吳/吴 119 2

2 只部首改变：軋/轧紅/红銅/铜鱗/鳞騎/骑韓/韩飼/饲 944 13

3 只音符或偏旁改变：構/构瓊/琼協/协勁/劲偉/伟癤/疖徑/径 1069 14

4 完全不同：歸/归龜/龟線/线馬/马輪/轮黽/黾為/为 377 5

5 用较简笔的繁体字：籲/吁後/后隻/只術/朮嶽/岳傑/杰幾/几 169 2

7378 100%

由上表可知繁简体字形完全相同的，占了 64%; 若再加上笔画略有差异的第 1项，与只部首不同的第 2项，则繁简体字形相同，及相差不多的比例高达 79% 。繁简体的差距，实不如一般人所想象的那么大。

两岸规范字的统合，是个攸关汉字发展前途的重要的文字工程，须专家学者，共同研究实施。统合的规范，是订定一个字体标准，并非繁简体并行的两个标准。笔者对此问题提出的一些看法，只供参考而已。

评估简化字，应把简化字当作独立的字系，从整个通用规范字的系统，加以考察;不宜逐字与繁体作比较。因大部分的简化字，约定俗成，并非有系统的创造出来的。

规范的简体字优化之后，再以繁简体的常用字为准，作一次总检讨，并寻求汉字合理化的途径。其范围约可包括： a.) 字形的统一， b) 部首的划一， c)形符、声符的简化，以及 d) 重文的整理等。

汉字可概分为形声字及形意字(非形声)二大类。理想的形声字约有 1,200标准声符(声旁)，容许声符在某个范围内的音变，声旁若不能表示汉字的正确读音，也宜有近似的音值，以发挥汉字先天具有的形声功能。

简化字中约定俗成的符号字，可以它相应的繁体字为声系。这类字只约一百多个，不妨繁、简并学。形意字大都源于象形及会意，它的本义可以作简单的解释。每个汉字，都可在它的字头或字尾，找出部首，部首大都代表汉字的意符。部首定性与定量的规范化，可提高汉字的排检效率。汉字还必须字元(字母)化，以标准的字元按标准的笔序组字，使二维的文字成爲一维排列，形成标准的形码输法。

合理化的汉字应具有: 标准的字元(部件)、意符、声符，以及规范的笔序与检索方式。每个形声字(含符号字)都有声系可归，每个形意字都有可解说的本义。

寻求通用汉字的合理化与系统化，增进汉字在教学上与传讯上的效率，这便是汉字现代化的目标。也是基于这个愿望，笔者不自量力的，作了这一系列的试探性的计量研究。

类别字数 % 累计%	说明
0 声韵全同 3694 58 58	声近:发音部位相似者,例 -- b/p/m/f d/t/n/l g/k/h j/q/x z/c/s y/w/v 韵近:韵尾收音相同或相似者,如 – i- Ai/Ei/i u- Ao/Ou/u/Yu [Ao=Au] n- En/An ng-Ang/Eng Ong/Ang en/eng 声(韵)似:转声(韵)较多者
1 韵同声近 816 13 71
2 韵同声异 782 12 83
3 声同韵异 383 6 89
4 声或韵近 465 7 96
5 声韵全异 265 4 100
合计 6405

简体	繁体
独立型(O类) 670 9 %	独立型(O类) 525 7 %
左右型(A类) 4431 60 %	左右型(A类) 4282 58 %
上下型(B类) 1468 20 %	上下型(B类) 1375 19 %
包围型(C类) 358 5 %	包围型(C类) 367 5 %
复迭型(D类) 451 6 %	复迭型(D类) 829 11 %
合计 7378 100 %	合计 7378 100 %