漢字系統工程的計量研究

--- 漢字現代化的探討與擬案 ---

 

緒 論

    1.0  序言

      1.1  漢字何以要現代化              1.2  漢字的發展及字形演變

      1.3  本研究的取樣範圍              1.4  研究的近、遠桯目標的與基本方式

    2.0  研究的結果摘要

      2.1  首尾檢字法、部首與字義相關度  2.2  形聲字音轉、聲兼義初探

      2.3  漢字結構分析、字元統計        2.4  字元輸入法、漢字字元化

2.5  繁簡雜論                      2.6  本文結語

 

1.0   序言

1.1   漢字何以要現代化

    漢字演進的趨勢,自圖繪經甲金文、篆文、隸書到楷書,字體逐漸蛻變,字形大體趨向簡易。但與拼音文字比較,漢字字元(部件)多,字元間的結合方式複雜;無論是字典檢字,或編碼作電腦輸入,均不如西文方便。另一方面國家雖已制定了標準字體,實際應用時仍有不少異體字在流行,這也增加了漢字學習的負擔。

    筆者多年來研究漢字的結構及形碼輸入法的結果,認為漢字必須現代化,方可配合目前國家現代化的需求。所謂現代化應有如下的含義:

  標準化:漢字的基本單位(字元),應該標準化;由字元構成的通用字 (包括常用字及部分次常用字),也應該標準化;相關的異體字應加以整理;并從其中選出一個合乎現代化的標準字形。

  科學化:科學化的定義便是高效率;文字是傳輸觀念的符號,花同一功夫能收到的效果大,便合乎科學。舉例來說,古人表達鼓聲,便創造出"鼕"字,為表達鑼聲,便發明"鏜"字。今人則用咚、噹來表達任何發聲器發出的相似聲音。咚、噹二字自較鼕鏜二字有較大的效用。又如古人對于馬的稱呼,常因毛色差異而有不同的名稱:騂/赤黃,騅/蒼白雜色,騏/青黑,驄/青白夾雜,驪/純黑,驖/赤黑。在現代人看來,這是不必要的,因此這些字也大部分被淘汰了。

  資訊化:目前漢字的電腦輸入雖有多種方式,但都未臻完美,用拼音法同碼太多;采用數字取字形的邊角,總覺得把漢字弄得支离破碎;使用字形分解法編碼,也因漢字的複雜結構,需花很多時間學習并記憶。筆者多年來研究漢字電腦輸入,并曾發明 <中文字元輸入法>,也覺得有欠理想。歸根結底,這是漢字的基本結構問題。如何改進漢字的基本結構,使它更適合資訊化的要求,是漢字現代化的重要課題之一。

  實用化:書法是一種藝術,字形可以有較多的變化;實用的文字則必須有統一的字形結構,而且要"楷"化。(當然字形的勻稱也是一種美,在制字時須加考慮)。另一個更實際的問題是:我們需要一個比目前更方便的檢字方式。因此如何設定部首,

使漢字歸部有個統一的標準,也是漢字現代化的研究重點。

 

1.2   漢字的發展及字形演變

1.2.1   六書與文字的演進

    英人 Eword Cidd 將各國文字演進分為四個時期 :

   1. 助記憶時期 (相當于我國古代的結繩)

   2. 圖繪時期   (相當于象形)

   3. 標義時期   (相當于會意)          

   4. 標音時期   (形聲也算是一種標音方式)

    如果把漢字六書的發展與上述世界性的文字演進時期配合,則可得如下簡圖 :

                                            

             象形  --->  (指事) --->會意 --->  (假借)/(轉注) --->形聲

         圖繪:具象的表義        標義:抽象的表義             標音:聲與 義的結合

 

    由上述文字演進的圖解可知,指事介于象形與會意之間,可認為簡易的推理,即會意。假借是一音(字)數用,但假借久了便加上形符,以示區別;那加上形符的字便成為形聲字。例如"采"從爪從木原意摘取,以後假借表色采,再後為著區別,乃各加形符而成"採、彩"二形聲字。轉注實際上是"意義相通的字"的相互注解。因此有些文字學家主張將六書簡化為三書,以解釋漢字的演進。這樣漢字與世界其它文字一樣,也經歷了上述典型的四個時期的發展。

    依統計,形聲字約占漢字85% 以上,可知漢字已進入文字發展的最末階段,但是形聲字因古今變讀的關係,大部分已失卻標音的功能。又因漢字同音多,使它轉化為純拼音文字并非容易。因此漢字現代化應在傳統及現行的基礎上進行。換言之,大部分 (約80%) 漢字應保持不變,其它則逐漸予以合理化,也就是古人所說的以"八分" 保留的方式逐步改進。

 

1.2.2   漢字字形的演變大要

        甲骨文 --> 大篆 --> 小篆 --> 隸書 --> 楷書

    甲骨文--漢字已有約 6,000 年的歷史,可由近年發現的陶器和墓葬的甲骨文字(如1973年在西安半坡出土的陶片)推知。甲骨文為殷代古字,可用於補正後來說文的缺誤。

    大篆--古文為春秋戰國時的東方文字;大篆則為當時的西方(秦國)文字。例如李斯的 <倉頡篇>,其字數約 3300 個;楊雄、班固的 <倉頡續篇>,其字數則增至約 6,000 字。倉頡三篇內談的都是日常事物,當時是用來教學兒童的。

    小篆--「說文」用的字體便是小篆,共有 9,353字。其來源有的出於孔子壁中書,春秋左傳的古文;有的出於史籀篇的大篆;也有的出於漢代的字書。

    隸書--最早在石上刻字的「石鼓文」近似大篆;漢以後刻石的字體多為隸書。相傳隸書的制作人是程邈。

    楷書--漢章帝時王次仲作楷書,楷書也叫做真書。棣楷之變是在毛筆發明之後才發生的。書寫工具的演進顯然對字體的改變起了關鍵性的作用。

 

1.2.3   前人簡化漢字的方法

    在漢字演進的過程中,形符的簡化,具體圖象的抽象化,表示一種進步。例如帆原從風舟,表示帆因風而推舟,這是具體的描述;其後創制形聲字帆,以巾表材料,以凡表聲。又如'龜'表甲殼上的細紋,算是工筆畫;''則繪出它的輪廓,是寫意畫,而後者較前者容易學習。

    文字由具體而抽象的例子不勝枚舉:龢 -> 和,龤 -> 諧 …。以樂器"龠"為部首的字,已逐漸被較簡單的形符"口、言"所取代,這是簡化,也是進步。以 鼕、鼚、鼞 表達不同的鼓聲,是很具象但也是很笨的方法,今用咚噹等從口的字來表示任何類似的聲音,這就提高了文字的效能。

    歸納前人化簡的方法,約有如下數端 :

a. 基本結構的簡化 : 如阜 ->   邑 ->

b. 象形的聲化 : 如 鳳 從鳥凡,不必另造象形字;現鳳又簡化作

c. 聲符的簡化 : 證 => 証()

d. 省形或省聲 : 如考孝老省,屐屨履省,島裊鳥省,度席庶省。

e. 異形同化   : 如 寺 原從ㄓ寸,後ㄓ簡為士;又如 思 原從囟心,後囟簡為田。

 

1.3  本研究的取樣範圍                                                       

本研究的取樣範圍包括海峽兩岸通用字共 7,376 個。其中包括 1986台灣公布的常用字 5,401,次常用字 1,719個(簡稱台規);以及 1988大陸公布的 <現代漢語通用字表> 7,000個(簡稱陸規)。以繁簡并列的方式,共得 7376 個。新編部首檢字的研究,其取樣範圍,則擴及包括海峽兩岸已公布的,全部標準常用字及次常用字(約20,000字)。在樣本 7,376字中有 262字為"簡一繁多"的情況,也就是一個簡化字相當于二個以上的繁體字,例如: 杯/杯盃、板/板闆、蒙/蒙濛矇、 台/台臺檯颱。

所謂 "常用字" 的取捨,兩岸各有一套衡量的標準 ,陸規 7,000 個通用字中,有 256 個不在台規 13,051 標準字內。另有 114 個台規的常用字,不在陸規7,000 通用字內。

本樣本實際取樣的漢字,其分布如下表所示:

 

 

陸規常用字

陸規次常用字

陸規外

簡一繁多

  合計

台規常用字

3450 (c)

1575 (e)

114 (a)

262 (r)

5401(台常)

台規次常用字

    47 (b)

1672 (d)

 

 

1719(台次常)

台規外

      3 (g)

  253 (f)

 

 

 256(台規外)

   合計

3500(陸規常)

3500(陸規次常)

114

262

7376 (樣本)

 

   由上表歸納,本樣本 7,376字,包括了大陸規範的常用字 3,500,次常用字 3,500;及台灣規範的常用字5,401,及次常用字 1719字,就一般通用字言,可算是具有相當代表性了。

   依現代漢語頻率詞典的統計,在語料 180万字中,共收詞條 31,159個,用了 4,574字,其中一級常用字 3,755 個已含蓋 99.9% 的詞條,詞與字之比為 5.8。1987大陸語委會就 3,500 常用字,以 200萬語料作抽樣檢驗,其覆蓋率達 99.48%。2002年由北京資訊工程學院陳一凡、朱亮,從5千餘萬字當代語料中,對GB13000.1字元集20,902字和88,102條詞語進行了流通頻度統計。其結果總共用到的漢字為7,330個,GB 13000.1字元集2萬多字中有13,572個出現。因此,就通用字來說,本研究的取樣,應是充分的。

   由於漢語音節只有 417 個,同音字多,複音詞勢必增加,才不致使語意混洧不清。又隨著社會的進化,新事物不斷產生,複音詞也不斷的創造。但絕大部分的新詞,也可用現成的單字(詞素)組成。漢字現代化的研究主題是"","詞"不在本研究範圍之內。

 

1.4   研究的近、遠桯目標的與基本方法

1.4.1   本研究的近、遠程目標有如下四項 :

 1. 近程目標 --

  a.  創立新的檢字準則,簡化部首的數量,建議從漢字的首尾字元中選定部首,以利漢字的檢索。

  b.  分析漢字結構,確定字形切分法則,從而擬定標準的字元(部件)及字碼,以改善電腦的形碼輸入法。

  c.  研究形聲字的聲韻轉換,從統計資料中,尋找若干聲變法則; 建議提升形聲字功能的方法。

 2. 遠桯目標 --

  a.  擬定漢字筆畫、字元及字形結構標準化的規律,從而擬定通用字標準的宇元(部件)、形符(部首)及聲符(聲旁),以便記憶,而利學習。

  b.  從現行的繁、簡體中,選用或改進成為一套標準字體,以能發揮漢字的特色,及其固有功能為主。也就是說把通用字分為兩大類: 其一是形意字,包括象形或會意,可用淺顯的語言說出制字的道理,(不一定要依据字源說)。其二是形聲字,包含一個容易辨認的部首,一個與讀音接近的聲符。

    當然這些目標絕不是筆者個人力量所能完全達成的,筆者只是在此提供一些擬案,一種愿望而已。尚請有志之士,共同努力,并多加批評指教。

 

1.4.2   研究的基本方法

    研究的基本方式有二 : 統計的 (Statistical),宏觀的 (Macroscopic)。

 1. 統計的:因為文字是約定俗成的,必須依据現有的文字資料,不厭其煩的,加以分析統計,從統計中獲得若干規則及結論。例如形聲字聲符的音轉,漢字字形結構的分類,部首的省拼…都需要把全部通用字,一一加以分析 、統計與研究。

 2. 宏觀的:研究的目的既然是使漢字標準化,科學化,實用化,以達到易學易用的目標,就必須在傳統的基礎上創新。要有回顧歷史及展望未來的眼光,所有研究的擬案,都要使用統一的準則、規範,并適用於繁體及簡化字。

 

2.0  研究結果(初步)摘要

2.1  首尾檢字法、部首與字義相關度(詳第一篇)

    漢字部首可定位在字頭或字尾二個位置:先行書寫的字元,謂之字頭; 最後書寫的字元,謂之字尾。比較首尾字元結構的權重,以定部首的方法,即所謂 "漢字首尾檢字法"。由此確定了部首的位置:不是字頭,便是字尾,(這是定性); 設定的漢字部首,自傳統的 214 部,濃縮為 175部,(這是定量)。再擬定一套邏輯程序,選擇部首檢字。大部分漢字可憑直覺觀察字形,比較字頭與字尾的權重後,即可檢得。所選出的部首,大都代表該字的意符,與一般辭書的編部相差很少,本檢字法可行性高。

    筆者又把 175 部首,依其通義分為八大類:如天文、地象、禽獸、植物…,再把單字的字義,逐一與部首之通義對照,統計其相關度。結果發現在 7294字中,字義有些相關的,高達 6243字,平均相關度達 86%。

 

2.2    形聲字音轉、聲兼義初探(詳第二篇)

由樣本 7376 通用字中,得出形聲字 6400個;若不計及四聲(陰平、陽平、上聲、去聲),及四呼(開口、齊齒、合口、撮口)的變化,聲符與其本字讀音,經綜合統計比較如次表:

 

     類  別    字數   %  累計%

            

  0 聲韻全同   3688  58    58

聲近:發音部位相似者,例 -- b/p/m/f  d/t/n/l  g/k/h  j/q/x  z/c/s  y/w/v

韻近:韻尾收音相同或相似者,如

i- Ai/Ei/i   u- Ao/Ou/u/Yu  [Ao=Au]

n- En/An  ng-Ang/Eng  Ong/Ang en/eng

(韻)似:轉聲(韻)較多者

  1 韻同聲近    819  13    71

  2 韻同聲異    782  12    83

  3 聲同韻異    376   6    89

  4 聲或韻似    485   7    96

  5 聲韻全異    250   4   100

合計    6400

 

由上表可知聲符與其本字讀音,保持一致者約占58%。韻母相同者約 83%,聲母相同者為 64%,聲變較韻變為大;聲符表音的功能僅約 53%(0.83x0.64)。若計及聲調及介音的差異,則遠低于此數。

聲韻全同、韻同聲近者,約占字數的 71%,保持著形聲字若干的表音功能,是較理想的漢字形態。

 

文中統計了個別聲母及韻母音轉的頻率,並提出若干解說。依据音變的統計,參以漢語語音史的探索,及某些方言的考察,當可獲得一些漢字聲韻轉換的規律。此外,筆者對「聲兼義」問題,也作了概括性的初探,其目的在了解少數漢字字義與語音之間的關聯,提升學習興趣,因為漢字有些理据可解的,總比全無可解的好。

 

音符變例:雙音d=9  繁用簡f=11  簡用繁j=71  省聲p=222  省形t=170  變形v=29  雙形w=26   合計540 (8%)

   音符含字數/音符數—

 

音符含字數

11up

10-5

4

3

2

1

合計

音符數

138

411

127

162

174

188

1200

比例,%

12

34

11

14

14

16

100

   

聲符及字音的韻母(含字數)

 

A

O

E

Ai

Ei

Ao

Ou

I

U

V

An

En

Ang

Eng

Ong

合計

音符

311

248

360

156

355

434

334

924

605

223

899

512

393

418

228

6400

字音

320

297

418

200

328

466

308

861

535

217

909

485

415

421

220

6400

   

聲符及字音的聲母(含字數)

B

P

M

F

D

T

N

L

G

K

H

J

Q

X

Zh

Ch

Sh

R

Z

C

S

Y

W

V

Ae

f 339

136

237

246

288

193

103

472

409

135

245

562

318

305

437

192

297

80

142

135

121

454

235

210

109

w287

229

260

194

310

277

145

477

270

198

321

495

312

381

361

273

249

87

144

121

147

372

190

180

120

 

2.3    漢字結構分析、繁簡體結構的差異(詳第三篇)

    通用字結構可概分為:獨體型(O)、左右型(A類)、上下型(B類)、包圍型(C類)、複疊型(D類)五類。除獨體型外,每類各有若干構式。7376字繁簡體構式的比較如次表:

                

              簡          體         

            繁            體

         獨立型(O類)    670    9 %  

      獨立型(O類)    525   7 %

         左右型(A類)   4429   60 %   

      左右型(A類)   4280   58 %

         上下型(B類)   1468   20 %   

      上下型(B類)   1374   19 %

         包圍型(C類)    358    5 %   

      包圍型(C類)    366    5 %

         複疊型(D類)    451    6 %   

      複疊型(D類)    831   11 %

            合計       7376  100 %  

          合計      7376  100 %

 

由上表可知,簡化字的複疊型結構只占 6%。而繁體的複疊型結構則增為 11%,可知簡化字對于精簡漢字的字型結構有相當的助益。

 

2.4  通用字部件擬案、形碼輸入、漢字字元化(詳第四篇)    

本篇「通用字部件規範擬案」中所 設定的 322個字元(部件),乃從 7376通用字(含繁簡體),經字型結構分析 並統計後而得的結果,可用於「形碼輸入法」的碼元。

    字元輸入法設定碼元 322 個(198組),適用於繁簡體,具有相同的輸入法則,所不同的是設計的部分碼元,因繁簡字形不同而略有差異,繁簡體各有專用碼元數個。字元輸入法的主要規則為:

 1. 依漢字的自然筆序取首、次、三及末碼。

   2. 相交相夾的字元,取碼時以字元起筆的先後為序。

   3. 被(W)或(M)所包圍的字元可省略,但整字不及4碼者,應補足 4碼。

本篇中「漢字字元化」一章,乃討論漢字字形統一、優化,及字元合理化等問題。就兩岸目前通行的規範字 7376 個言,前述擬定的字元(部件),應可概括所有的通用字。

 

2.5    繁簡雜論(詳第五篇)

2.51   繁簡體的統合問題

  目前台海兩岸各自頒布了通用字規範,本篇主要在討論兩岸規範的統合問題。首先要分析的,是繁簡體的差異,究竟有多大? 依樣本 7376 字之統計

    繁簡體字形差異類別(參見附圖2)                                 字數    %

   0  完全相同                             (略)                    4699   64

   1  只笔划略有不同   ///////    120    2

   2  只部首改变       ///////    946   13

   只音符或偏旁改变  構/ / / / / / /   1069   14

   4  完全不同          歸/ / /线 / / / /    374    5

   5  用较简笔的繁体字  籲/吁 後//只 術/朮 嶽/岳 傑/杰 幾/几    168    2

7376  100%

 

由上表可知繁簡體字形完全相同的,占了 64%; 若再加上筆畫略有差異的第 1項,與只部首不同的第 2項,則繁簡體字形相同,及相差不多的比例高達 79% 。 繁簡體的差距,實不如一般人所想象的那麼大。

    兩岸規範字的統合,是個攸關漢字發展前途的重要的文字工程,須專家學者,共同研究實施。統合的規範,是訂定一個字體標準,并非繁簡體並行的兩個標準。筆者對此問題提出的一些看法,只供參考而已。

 

2.52   簡化字的缺失及优化、漢字的再改革

    評估簡化字,應把簡化字當作獨立的字系,從整個通用規範字的系統,加以考察;不宜逐字與繁體作比較。因大部分的簡化字,約定俗成,并非有系統的創造出來的。

規範的簡體字优化之後,再以繁簡體的常用字為準,作一次總檢討,并尋求漢字合理化的途徑。其範圍約可包括: a.) 字形的統一, b) 部首的劃一, c)形符、聲符的簡化,以及 d) 重文的整理等。

 

2.6   本文結語

漢字可概分為形聲字及形意字(非形聲)二大類。理想的形聲字約有 1,200標準聲符(聲旁),容許聲符在某個範圍內的音變,聲旁若不能表示漢字的正確讀音,也宜有近似的音值,以發揮漢字先天具有的形聲功能。

簡化字中約定俗成的符號字,可以它相應的繁體字為聲系。這類字只有一百多個,不妨繁、簡并學。形意字大都源于象形及會意,它的本義可以作簡單的解釋。每個漢字,都可在它的字頭或字尾,找出部首,部首大都代表漢字的意符。部首定性與定量的規範化,可提高漢字的排檢效率。漢字還必須字元(字母)化,以標準的字元按標準的筆序組字,使二維的文字成爲一維排列,以形成標準的形碼輸入法。

    合理化的漢字應具有: 標準的字元(部件)、意符、聲符,以及規範的筆序與檢索方式。每個形聲字(含符號字)都有聲系可歸,每個形意字都有可解說的本義。

    尋求通用漢字的合理化與系統化,增進漢字在教學上與傳訊上的效率,這便是漢字現代化的目標。也是基于這個愿望,筆者不自量力的,作了這一系列的試探性的計量研究。