汉字系统工程的计量研究                    

              --- 汉字现代化的探讨与拟案 ---

 

 绪 论                                       

    1.0  序言

      1.1  汉字何以要现代化            1.2  汉字的发展及字形演变

      1.3  本研究的取样范围            1.4  研究的近、远桯目标的与基本方式

    2.0  研究的结果(初步)摘要

      2.1  首尾检字法、部首与字义相关度      2.2  形声字音转、声兼义初探

      2.3  汉字结构分析、字符统计         2.4  字符输入法、汉字字符化

2.5  繁简杂论                  2.6  本文结语

 

1.0   序言

1.1   汉字何以要现代化

    汉字演进的趋势,自图绘经甲金文、篆文、隶书到楷书,字体逐渐蜕变,字形大体趋向简易。但与拼音文字比较,汉字字元(部件)多,字元间的结合方式复杂;无论是字典检字,或编码作计算机输入,均不如西文方便。另一方面国家虽已制定了标准字体,实际应用时仍有不少异体字在流行,这也增加了汉字学习的负担。

    笔者多年来研究汉字的结构及形码输入法的结果,认为汉字必须现代化,方可配合目前国家现代化的需求。所谓现代化应有如下的含义:

  标准化:汉字的基本单位(字元),应该标准化;由字元构成的通用字 (包括常用字及部分次常用字),也应该标准化;相关的异体字应加以整理;并从其中选出一个合乎现代化的标准字形。

  科学化:科学化的定义便是高效率;文字是观念的符号,花同一功夫能收到的效果大,便合乎科学。举例来说,古人表达鼓声,便创造出"鼕"字,为表达锣声,便发明"镗"字。今人则用咚、当来表达任何发声器发出的相似声音。咚、当二字自较 鼕镗二字有较大的效用。又如古人对于马的称呼,常因毛色差异而有不同的名称: 骍/赤黄,骓/苍白杂色,骐/青黑,骢/青白夹杂,骊/纯黑,驖/赤黑。在现代人看来,这是不必要的,因此这些字也大部分被淘汰了。

  信息化:目前汉字的计算机输入虽有多种方式,但都未臻完美,用拼音法同码太多;采用数字取字形的边角,总觉得把汉字弄得支离破碎;使用字形分解法编码,也因汉字的复杂结构,需花很多时间学习并记忆。笔者多年来研究汉字计算机输入,并曾发明 <汉字字元输入法>,也觉得有欠理想。归根结底,这是汉字的基本结构问题。如何改进汉字的基本结构,使它更适合信息化的要求,是汉字现代化的重要课题之一。

  实用化:书法是一种艺术,字形可以有较多的变化;实用的文字则必须有统一的字形结构,而且要"楷"化。(当然字形的匀称也是一种美,在制字时须加考虑)。另一个更实际的问题是:我们需要一个比目前更方便的检字方式。因此如何设定部首,使汉字归部有个统一的标准,也是汉字现代化的研究重点。

 

1.2   汉字的发展及字形演变

1.2.1   六书与文字的演进

    英人 Eword Cidd 将各国文字演进分为四个时期 :

   1. 助记忆时期 (相当于我国古代的结绳)

   2. 图绘时期   (相当于象形)

   3. 标义时期   (相当于会意)          

   4. 标音时期   (形声也算是一种标音方式)

    如果把汉字六书的发展与上述世界性的文字演进时期配合,则可得如下简图 :

                                            

             象形  --->  (指事) --->会意 --->  (假借)/(转注) --->形声

         图绘:具象的表义        标义:抽象的表义             标音:声与义的结合

 

    由上述文字演进的图解可知,指事介于象形与会意之间,可认为简易的推理,即会意。假借是一音(字)数用,但假借久了便加上形符,以示区别;那加上形符的字便成为形声字。例如"采"从爪从木原意摘取,以后假借表色采,再后为着区别,乃各加形符而成"採、彩"二形声字。转注实际上是"意义相通的字"的相互注解。因此有些文字学家主张将六书简化为三书,以解释汉字的演进。这样汉字与世界其它文字一样,也经历了上述典型的四个时期的发展。

    依统计,形声字约占汉字85% 以上,可知汉字已进入文字发展的最末阶段,但是形声字因古今变读的关系,大部分已失却标音的功能。又因汉字同音多,使它转化为纯拼音文字并非容易。因此汉字现代化应在传统及现行的基础上进行。换言之,大部分 (约80%) 汉字应保持不变,其它则逐渐予以合理化,也就是古人所说的以"八分" 保留的方式逐步改进。

 

1.2.2   汉字字形的演变大要

        甲骨文 --> 大篆 --> 小篆 --> 隶书 --> 楷书

    甲骨文--汉字已有约 6,000 年的历史,可由近年发现的陶器和墓葬的甲骨文字(如1973年在西安半坡出土的陶片)推知。甲骨文为殷代古字,可用于补正后来说文的缺误。

    大篆--古文为春秋战国时的东方文字;大篆则为当时的西方(秦国)文字。例如李斯的 <仓颉篇>,其字数约 3300 个;杨雄、班固的 <仓颉续篇>,其字数则增至约 6,000 字。仓颉三篇内谈的都是日常事物,当时是用来教学儿童的。

    小篆--「说文」用的字体便是小篆,共有 9,353字。其来源有的出于孔子壁中书,春秋左传的古文;有的出于史籀篇的大篆;也有的出于汉代的字书。

    隶书--最早在石上刻字的「石鼓文」近似大篆;汉以后刻石的字体多为隶书。相传隶书的制作人是程邈。

    楷书--汉章帝时王次仲作楷书,楷书也叫做真书。棣楷之变是在毛笔发明之后才发生的。书写工具的演进显然对字体的改变起了关键性的作用。

 

1.2.3   前人简化汉字的方法

    在汉字演进的过程中,形符的简化,具体图象的抽象化,表示一种进步。例如帆原从风舟,表示帆因风而推舟,这是具体的描述;其后创制形声字帆,以巾表材料,以凡表声。又如'龜'表甲壳上的细纹,算是工笔画;''则绘出它的轮廓,是写意画,而后者较前者容易学习。

    文字由具体而抽象的例子不胜枚举:龢 -> 和,龤 -> 谐 …。以乐器"龠"为部首的字,已逐渐被较简单的形符"口、言"所取代,这是简化,也是进步。以 鼕、鼚、鼞 表达不同的鼓声,是很具象但也是很笨的方法,今用咚当等从口的字来表示任何类似的声音,这就提高了文字的效能。

    归纳前人化简的方法,约有如下数端 :

a. 基本结构的简化 : 如阜 ->   邑 ->

b. 象形的声化 : 如从鸟凡,不必另造象形字;现又简化作

c. 声符的简化 : 證 => 証()

d. 省形或省声 : 如考孝老省,屐屦履省,岛袅鸟省,度席庶省。

e. 异形同化   : 如 寺 原从ㄓ寸,后ㄓ简为士;又如 思 原从囟心,后囟简为田。

 

1.3  本研究的取样范围                                                       

本研究的取样范围包括海峡两岸通用字共 7,380 个。其中包括 1986台湾公布的常用字 5,401,次常用字 1,716个(简称台规);以及 1988大陆公布的 <现代汉语通用字表> 7,000个(简称陆规)。以繁简并列的方式,共得 7378 个。新编部首检字的研究,其取样范围,则扩及包括海峡两岸已公布的,全部标准常用字及次常用字(约20,000字)。在样本 7,378字中有267字为"简一繁多"的情况,也就是一个简化字相当于二个以上的繁体字,例如: 杯/杯盃、板/板闆、蒙/蒙濛矇、 台/台臺檯颱。 

所谓 "常用字" 的取舍,两岸各有一套衡量的标准 ,陆规 7,000 个通用字中,有 261 个不在台规 13,051 标准字内。另有 111 个台规的常用字,不在陆规7,000 通用字内。

本样本实际取样的汉字,其分布如下表所示:

 

 

陆规常用字

陆规次常用字

陆规外

简一繁多

  合计

台规常用字

3450 (c)

1573 (e)

111(a)

267 (r)

5401 (台常)

台规次常用字

  47 (b)

1669 (d)

 

 

1716 (台次常)

台规外

   3 (g)

 258 (f)

 

 

  261 (台规外)

   合计

3500(陆规常)

3500(陆规次常)

111

267

7378 (样本)

 

   由上表归纳,本样本 7,378字,包括了大陆规范的常用字 3,500,次常用字 3,500;及台湾规范的常用字5,401,及次常用字 1716字,就一般通用字言,可算是具有相当代表性了。

   依现代汉语频率词典的统计,在语料 180万字中,共收词条 31,159个,用了 4,574字,其中一级常用字 3,755 个已含盖 99.9% 的词条,词与字之比为 5.8。1987大陆语委会就 3,500 常用字,以 200万语料作抽样检验,其覆盖率达 99.48%。

     2002年由北京资讯工程学院陈一凡、朱亮,从5千余万字当代语料中,对GB13000.1字符集20,902字和88,102条词语进行了流通频度统计。其结果总共用到的汉字为7,330个,GB 13000.1字符集2万多字中有13,572出现。因此,就通用字来说,本研究的取样,应是充分的。

   由于汉语音节只有 417 个,同音字多,复音词势必增加,才不致使语意混洧不清。又随着社会的进化,新事物不断产生,复音词也不断的创造。但绝大部分的新词,也可用现成的单字(词素)组成。汉字现代化的研究主题是"字","词"不在本研究范围之内。

 

1.4    研究的近、远桯目标的与基本方法

1.4.1  本研究的近、远程目标有如下四项 :

 1. 近程目标 --

  a.  创立新的检字准则,简化部首的数量,建议从汉字的首尾字中选定部首,以利汉字的检索。

  b.  分析汉字结构,确定字形切分法则,从而拟定标准的字(部件)及字码,以改善计算机的形码输入法。

  c.  研究形声字的声韵转换,从统计资料中,寻找若干声变法则; 建议提升形声字功能的方法。

 2. 远桯目标 --

  a.  拟定汉字笔画、字符及字形结构标准化的规律,从而拟定通用字标准的宇元(部件)、形符(部首)及声符(声旁),以便记忆,而利学习。

  b.  从现行的繁、简体中,选用或改进成为一套标准字体,以能发挥汉字的特色,及其固有功能为主。也就是说把通用字分为两大类: 其一是形意字,包括象形或会意,可用浅显的语言说出制字的道理,(不一定要依据字源说)。其二是形声字,包含一个容易辨认的部首,一个与读音接近的声符。

    当然这些目标绝不是笔者个人力量所能完全达成的,笔者只是在此提供一些拟案,一种愿望而已。尚请有志之士,共同努力,并多加批评指教。

                                                                             

1.4.2   研究的基本方法

    研究的基本方式有二 : 统计的 (Statistical),宏观的 (Macroscopic)。

 1. 统计的:因为文字是约定俗成的,必须依据现有的文字数据,不厌其烦的,加以分析统计,从统计中获得若干规则及结论。例如形声字声符的音转,汉字字形结构的分类,部首的省拼…都需要把全部通用字,一一加以分析 、统计与研究。

 2. 宏观的:研究的目的既然是使汉字标准化,科学化,实用化,以达到易学易用的目标,就必须在传统的基础上创新。要有回顾历史及展望未来的眼光,所有研究的拟案,都要使用统一的准则、规范,并适用于繁体及简化字。

 3. 计算机程序:研究的结论,主要来自样本通用字 7378 的分析与统计。因所处理的数据庞大,常须籍助若干软件程序计算。以下是使用的主要程:

  pm1:韵母转韵  pm2: 声母转声   pm3: 繁简差异   pm4:声符定性  pm5: 声符分韵: pm7:声母分档

  pm16:部首    pm19:笔画计算  pm22:结构分析  pm23:同音字   pm31求部件    pm38:部件编码 

    

2.0  研究结果(初步)摘要

2.1  首尾检字法、部首与字义相关度(详第一篇)

    汉字部首可定位在字头或字尾二个位置:先行书写的字,谓之字头; 最后书写的字,谓之字尾。比较首尾字结构的权重,以定部首的方法,即所谓 "汉字首尾部首检字法"。由此确定了部首的位置:不是字头,便是字尾,(这是定性); 设定的汉字部首,自传统的 214 部,浓缩为 175部,(这是定量)。再拟定一套逻辑程序,选择部首检字。大部分汉字可凭直觉观察字形,比较字头与字尾的权重后,即可检得。所选出的部首,大都代表该字的意符,与一般辞书的编部相差很少,本检字法可行性高。

    笔者又把 175 部首,依其通义分为八大类:如天文、地象、禽兽、植物…,再把单字的字义,逐一与部首之通义对照,统计其相关度。结果发现在 7294字中,字义有些相关的,高达 6243字,平均相关度达 86%

 

2.2    形声字音转、声兼义初探(详第二篇)

由样本 7378 通用字中,得出形声字 6405个;若不计及四声(阴平、阳平、上声、去声),及四呼(开口、齐齿、合口、撮口)的变化,声符与其本字读音,经综合统计比较如次表:

 

   类  别    字数  %  累计%

      说              明

   0 声韵全同  3694 58 58    

声近:发音部位相似者,例 -- b/p/m/f  d/t/n/l  g/k/h  j/q/x  z/c/s  y/w/v

韵近:韵尾收音相同或相似者,如

i- Ai/Ei/i  u- Ao/Ou/u/Yu  [Ao=Au]

n- En/An ng-Ang/Eng  Ong/Ang en/eng

(韵)似:转声(韵)较多者

   1 韵同声近  816 13  71    

   2 韵同声异  782 12  83    

   3 声同韵异  383 6  89    

   4 声或韵近  465  7  96

   5 声韵全异 265  4  100    

合计  6405   

      

由上表可知声符与其本字读音,保持一致者约占58%。韵母相同者约 83%,声母相同者为 64%,声变较韵变为大;声符表音的功能仅约 53%(0.83x0.64)。若计及声调及介音的差异,则远低于此数。

声韵全同、韵同声近者,约占字数的 71%,保持着形声字若干的表音功能,是较理想的汉字形态。

文中统计了个别声母及韵母音转的频率,并提出若干解说。依据音变的统计,参以汉语语音史的探索,及某些方言的考察,当可获得一些汉字声韵转换的规律。此外,笔者对「声兼义」问题,也作了概括性的初探,其目的在了解少数汉字字义与语音之间的关联,提升学习兴趣,因为汉字有些理据可解的,总比全无可解的好。

 

2.3    汉字结构分析、繁简体结构的差异(详第三篇)

    通用字结构可概分为:独体型(O)、左右型(A类)、上下型(B类)、包围型(C类)、复迭型(D类)五类。除独体型外,每类各有若干构式。7378字繁简体构式的比较如次表:

                

  简        体         

 繁            体

    独立型(O类)    670    9 %  

     独立型(O类)    525   7 %

    左右型(A类)   4431   60 %   

      左右型(A类)   4282   58 %

    上下型(B类)   1468   20 %   

      上下型(B类)   1375   19 %

   包围型(C类)    358    5 %   

     包围型(C类)    367    5 %

   复迭型(D类)    451    6 %   

     复迭型(D类)    829   11 %

    合计       7378   100 %  

      合计      7378  100 %

             

    由上表可知,简化字的复迭型结构只占 6%。而繁体的复迭型结构则增为 11%,可知简化字对于精简汉字的字型结构有相当的助益。

 

2.4  通用字部件拟案、形码输入、汉字字化(详第四篇)    

本篇「通用字部件规范拟案」中所 设定的 322个(部件),乃从 7378通用字(含繁简体),经字型结构分析 并统计后而得的结果,可用于「形码输入法」的码元。

    字输入法设定码元 322 个(198组),适用于繁简体,具有相同的输入法则,所不同的是设计的部分码元,因繁简字形不同而略有差异,繁简体各有专用码元数个。字输入法的主要规则为:

 1. 依汉字的自然笔序取首、次、三及末码。

   2. 相交相夹的字符,取码时以字起笔的先后为序。

   3. 被(W)或(M)所包围的字可省略,但整字不及4码者,应补足 4码。

本篇中汉字字化」一章,乃讨论汉字字形统一、优化,及字合理化等问题。就两岸目前通行的规范字 7378 个言,前述拟定的字(部件),应可概括所有的通用字。

 

2.5    繁简杂论(详第五篇)

2.51   繁简体的统合问题

  目前台海两岸各自颁布了通用字规范,本篇主要在讨论两岸规范的统合问题。首先要分析的,是繁简体的差异,究竟有多大? 依样本 7378 字之统计

 繁简体字形差异类别(参见附图2)                     字数    %

   0 完全相同 :      (略)                    4700   64

   1  只笔划略有不同 戶/ / / / / / /   119    2

   2  只部首改变     軋/ / / / / / /   944  13

   3  只音符或偏旁改变  構/ / / / / / /  1069   14

   4  完全不同      歸/ / /线 / / / /   377    5

   5  用较简笔的繁体字  籲/吁 後/ /只 術/朮 嶽/岳 傑/杰 幾/几   169    2

           7378  100%

 

由上表可知繁简体字形完全相同的,占了 64%; 若再加上笔画略有差异的第 1项,与只部首不同的第 2项,则繁简体字形相同,及相差不多的比例高达 79% 。繁简体的差距,实不如一般人所想象的那么大。

    两岸规范字的统合,是个攸关汉字发展前途的重要的文字工程,须专家学者,共同研究实施。统合的规范,是订定一个字体标准,并非繁简体并行的两个标准。笔者对此问题提出的一些看法,只供参考而已。

 

2.52   简化字的缺失及优化、汉字的再改革

    评估简化字,应把简化字当作独立的字系,从整个通用规范字的系统,加以考察;不宜逐字与繁体作比较。因大部分的简化字,约定俗成,并非有系统的创造出来的。

规范的简体字优化之后,再以繁简体的常用字为准,作一次总检讨,并寻求汉字合理化的途径。其范围约可包括: a.) 字形的统一, b) 部首的划一, c)形符、声符的简化,以及 d) 重文的整理等。

 

2.6   本文结语

汉字可概分为形声字及形意字(非形声)二大类。理想的形声字约有 1,200标准声符(声旁),容许声符在某个范围内的音变,声旁若不能表示汉字的正确读音,也宜有近似的音值,以发挥汉字先天具有的形声功能。

简化字中约定俗成的符号字,可以它相应的繁体字为声系。这类字只约一百多个不妨繁、简并学。形意字大都源于象形及会意,它的本义可以作简单的解释。每个汉字,都可在它的字头或字尾,找出部首,部首大都代表汉字的意符。部首定性与定量的规范化,可提高汉字的排检效率。汉字还必须字(字母)化,以标准的字按标准的笔序组字,使二维的文字成爲一维排列,形成标准的形码输法。

    合理化的汉字应具有: 标准的字(部件)、意符、声符,以及规范的笔序与检索方式。每个形声字(含符号字)都有声系可归,每个形意字都有可解说的本义。

    寻求通用汉字的合理化与系统化,增进汉字在教学上与传讯上的效率,这便是汉字现代化的目标。也是基于这个愿望,笔者不自量力的,作了这一系列的试探性的计量研究。