漢字系統工程的計量研究
--- 漢字現代化的探討與擬案 ---
緒 論
1.0 序言
1.1 漢字何以要現代化 1.2 漢字的發展及字形演變
1.3 本研究的取樣範圍 1.4 研究的近、遠桯目標的與基本方式
2.0 研究的結果摘要
2.1 首尾檢字法、部首與字義相關度 2.2 形聲字音轉、聲兼義初探
2.3 漢字結構分析、字元統計 2.4 字元輸入法、漢字字元化
2.5 繁簡雜論 2.6 本文結語
1.0 序言
1.1 漢字何以要現代化
漢字演進的趨勢,自圖繪經甲金文、篆文、隸書到楷書,字體逐漸蛻變,字形大體趨向簡易。但與拼音文字比較,漢字字元(部件)多,字元間的結合方式複雜;無論是字典檢字,或編碼作電腦輸入,均不如西文方便。另一方面國家雖已制定了標準字體,實際應用時仍有不少異體字在流行,這也增加了漢字學習的負擔。
筆者多年來研究漢字的結構及形碼輸入法的結果,認為漢字必須現代化,方可配合目前國家現代化的需求。所謂現代化應有如下的含義:
標準化:漢字的基本單位(字元),應該標準化;由字元構成的通用字 (包括常用字及部分次常用字),也應該標準化;相關的異體字應加以整理;并從其中選出一個合乎現代化的標準字形。
科學化:科學化的定義便是高效率;文字是傳輸觀念的符號,花同一功夫能收到的效果大,便合乎科學。舉例來說,古人表達鼓聲,便創造出"鼕"字,為表達鑼聲,便發明"鏜"字。今人則用咚、噹來表達任何發聲器發出的相似聲音。咚、噹二字自較鼕鏜二字有較大的效用。又如古人對于馬的稱呼,常因毛色差異而有不同的名稱:騂/赤黃,騅/蒼白雜色,騏/青黑,驄/青白夾雜,驪/純黑,驖/赤黑。在現代人看來,這是不必要的,因此這些字也大部分被淘汰了。
資訊化:目前漢字的電腦輸入雖有多種方式,但都未臻完美,用拼音法同碼太多;采用數字取字形的邊角,總覺得把漢字弄得支离破碎;使用字形分解法編碼,也因漢字的複雜結構,需花很多時間學習并記憶。筆者多年來研究漢字電腦輸入,并曾發明 <中文字元輸入法>,也覺得有欠理想。歸根結底,這是漢字的基本結構問題。如何改進漢字的基本結構,使它更適合資訊化的要求,是漢字現代化的重要課題之一。
實用化:書法是一種藝術,字形可以有較多的變化;實用的文字則必須有統一的字形結構,而且要"楷"化。(當然字形的勻稱也是一種美,在制字時須加考慮)。另一個更實際的問題是:我們需要一個比目前更方便的檢字方式。因此如何設定部首,
使漢字歸部有個統一的標準,也是漢字現代化的研究重點。
1.2 漢字的發展及字形演變
1.2.1 六書與文字的演進
英人 Eword Cidd 將各國文字演進分為四個時期 :
1. 助記憶時期 (相當于我國古代的結繩) |
2. 圖繪時期 (相當于象形) |
3. 標義時期 (相當于會意)
|
4. 標音時期 (形聲也算是一種標音方式) |
如果把漢字六書的發展與上述世界性的文字演進時期配合,則可得如下簡圖 :
象形 ---> (指事) --->會意 ---> (假借)/(轉注) --->形聲
圖繪:具象的表義 標義:抽象的表義 標音:聲與 義的結合
由上述文字演進的圖解可知,指事介于象形與會意之間,可認為簡易的推理,即會意。假借是一音(字)數用,但假借久了便加上形符,以示區別;那加上形符的字便成為形聲字。例如"采"從爪從木原意摘取,以後假借表色采,再後為著區別,乃各加形符而成"採、彩"二形聲字。轉注實際上是"意義相通的字"的相互注解。因此有些文字學家主張將六書簡化為三書,以解釋漢字的演進。這樣漢字與世界其它文字一樣,也經歷了上述典型的四個時期的發展。
依統計,形聲字約占漢字85% 以上,可知漢字已進入文字發展的最末階段,但是形聲字因古今變讀的關係,大部分已失卻標音的功能。又因漢字同音多,使它轉化為純拼音文字并非容易。因此漢字現代化應在傳統及現行的基礎上進行。換言之,大部分 (約80%) 漢字應保持不變,其它則逐漸予以合理化,也就是古人所說的以"八分" 保留的方式逐步改進。
1.2.2 漢字字形的演變大要
甲骨文 --> 大篆 --> 小篆 --> 隸書 --> 楷書
甲骨文--漢字已有約 6,000 年的歷史,可由近年發現的陶器和墓葬的甲骨文字(如1973年在西安半坡出土的陶片)推知。甲骨文為殷代古字,可用於補正後來說文的缺誤。
大篆--古文為春秋戰國時的東方文字;大篆則為當時的西方(秦國)文字。例如李斯的 <倉頡篇>,其字數約 3300 個;楊雄、班固的 <倉頡續篇>,其字數則增至約 6,000 字。倉頡三篇內談的都是日常事物,當時是用來教學兒童的。
小篆--「說文」用的字體便是小篆,共有 9,353字。其來源有的出於孔子壁中書,春秋左傳的古文;有的出於史籀篇的大篆;也有的出於漢代的字書。
隸書--最早在石上刻字的「石鼓文」近似大篆;漢以後刻石的字體多為隸書。相傳隸書的制作人是程邈。
楷書--漢章帝時王次仲作楷書,楷書也叫做真書。棣楷之變是在毛筆發明之後才發生的。書寫工具的演進顯然對字體的改變起了關鍵性的作用。
1.2.3 前人簡化漢字的方法
在漢字演進的過程中,形符的簡化,具體圖象的抽象化,表示一種進步。例如帆原從風舟,表示帆因風而推舟,這是具體的描述;其後創制形聲字帆,以巾表材料,以凡表聲。又如'龜'表甲殼上的細紋,算是工筆畫;'龟'則繪出它的輪廓,是寫意畫,而後者較前者容易學習。
文字由具體而抽象的例子不勝枚舉:龢 -> 和,龤 -> 諧 …。以樂器"龠"為部首的字,已逐漸被較簡單的形符"口、言"所取代,這是簡化,也是進步。以 鼕、鼚、鼞 表達不同的鼓聲,是很具象但也是很笨的方法,今用咚噹等從口的字來表示任何類似的聲音,這就提高了文字的效能。
歸納前人化簡的方法,約有如下數端 :
a. 基本結構的簡化 : 如阜 ->阝
邑 ->阝 |
b. 象形的聲化
: 如 鳳 從鳥凡,不必另造象形字;現鳳又簡化作凤。 |
c. 聲符的簡化 : 證 => 証(证) |
d. 省形或省聲
: 如考孝从老省,屐屨从履省,島裊从鳥省,度席从庶省。 |
e. 異形同化
: 如 寺 原從ㄓ寸,後ㄓ簡為士;又如 思 原從囟心,後囟簡為田。 |
1.3 本研究的取樣範圍
本研究的取樣範圍包括海峽兩岸通用字共 7,376 個。其中包括 1986台灣公布的常用字 5,401,次常用字 1,719個(簡稱台規);以及 1988大陸公布的 <現代漢語通用字表> 7,000個(簡稱陸規)。以繁簡并列的方式,共得 7376 個。新編部首檢字的研究,其取樣範圍,則擴及包括海峽兩岸已公布的,全部標準常用字及次常用字(約20,000字)。在樣本 7,376字中有 262字為"簡一繁多"的情況,也就是一個簡化字相當于二個以上的繁體字,例如: 杯/杯盃、板/板闆、蒙/蒙濛矇、 台/台臺檯颱。
所謂 "常用字" 的取捨,兩岸各有一套衡量的標準 ,陸規 7,000 個通用字中,有 256 個不在台規 13,051 標準字內。另有 114 個台規的常用字,不在陸規7,000 通用字內。
本樣本實際取樣的漢字,其分布如下表所示:
|
陸規常用字 |
陸規次常用字 |
陸規外 |
簡一繁多 |
合計 |
台規常用字 |
3450 (c) |
1575 (e) |
114 (a) |
262 (r) |
5401(台常) |
台規次常用字 |
47 (b) |
1672 (d) |
|
|
1719(台次常) |
台規外 |
3 (g) |
253 (f) |
|
|
256(台規外) |
合計 |
3500(陸規常) |
3500(陸規次常) |
114 |
262 |
7376 (樣本) |
由上表歸納,本樣本 7,376字,包括了大陸規範的常用字 3,500,次常用字 3,500;及台灣規範的常用字5,401,及次常用字 1719字,就一般通用字言,可算是具有相當代表性了。
依現代漢語頻率詞典的統計,在語料 180万字中,共收詞條 31,159個,用了 4,574字,其中一級常用字 3,755 個已含蓋 99.9% 的詞條,詞與字之比為 5.8。1987大陸語委會就 3,500 常用字,以 200萬語料作抽樣檢驗,其覆蓋率達 99.48%。2002年由北京資訊工程學院陳一凡、朱亮,從5千餘萬字當代語料中,對GB13000.1字元集20,902字和88,102條詞語進行了流通頻度統計。其結果總共用到的漢字為7,330個,GB 13000.1字元集2萬多字中有13,572個未出現。因此,就通用字來說,本研究的取樣,應是充分的。
由於漢語音節只有 417 個,同音字多,複音詞勢必增加,才不致使語意混洧不清。又隨著社會的進化,新事物不斷產生,複音詞也不斷的創造。但絕大部分的新詞,也可用現成的單字(詞素)組成。漢字現代化的研究主題是"字","詞"不在本研究範圍之內。
1.4 研究的近、遠桯目標的與基本方法
1.4.1 本研究的近、遠程目標有如下四項 :
1. 近程目標 --
a. 創立新的檢字準則,簡化部首的數量,建議從漢字的首尾字元中選定部首,以利漢字的檢索。
b. 分析漢字結構,確定字形切分法則,從而擬定標準的字元(部件)及字碼,以改善電腦的形碼輸入法。
c. 研究形聲字的聲韻轉換,從統計資料中,尋找若干聲變法則; 建議提升形聲字功能的方法。
2. 遠桯目標 --
a. 擬定漢字筆畫、字元及字形結構標準化的規律,從而擬定通用字標準的宇元(部件)、形符(部首)及聲符(聲旁),以便記憶,而利學習。
b. 從現行的繁、簡體中,選用或改進成為一套標準字體,以能發揮漢字的特色,及其固有功能為主。也就是說把通用字分為兩大類: 其一是形意字,包括象形或會意,可用淺顯的語言說出制字的道理,(不一定要依据字源說)。其二是形聲字,包含一個容易辨認的部首,一個與讀音接近的聲符。
當然這些目標絕不是筆者個人力量所能完全達成的,筆者只是在此提供一些擬案,一種愿望而已。尚請有志之士,共同努力,并多加批評指教。
1.4.2 研究的基本方法
研究的基本方式有二 : 統計的 (Statistical),宏觀的 (Macroscopic)。
1. 統計的:因為文字是約定俗成的,必須依据現有的文字資料,不厭其煩的,加以分析統計,從統計中獲得若干規則及結論。例如形聲字聲符的音轉,漢字字形結構的分類,部首的省拼…都需要把全部通用字,一一加以分析 、統計與研究。
2. 宏觀的:研究的目的既然是使漢字標準化,科學化,實用化,以達到易學易用的目標,就必須在傳統的基礎上創新。要有回顧歷史及展望未來的眼光,所有研究的擬案,都要使用統一的準則、規範,并適用於繁體及簡化字。
2.0 研究結果(初步)摘要
2.1 首尾檢字法、部首與字義相關度(詳第一篇)
漢字部首可定位在字頭或字尾二個位置:先行書寫的字元,謂之字頭; 最後書寫的字元,謂之字尾。比較首尾字元結構的權重,以定部首的方法,即所謂 "漢字首尾檢字法"。由此確定了部首的位置:不是字頭,便是字尾,(這是定性); 設定的漢字部首,自傳統的 214 部,濃縮為 175部,(這是定量)。再擬定一套邏輯程序,選擇部首檢字。大部分漢字可憑直覺觀察字形,比較字頭與字尾的權重後,即可檢得。所選出的部首,大都代表該字的意符,與一般辭書的編部相差很少,本檢字法可行性高。
筆者又把 175 部首,依其通義分為八大類:如天文、地象、禽獸、植物…,再把單字的字義,逐一與部首之通義對照,統計其相關度。結果發現在 7294字中,字義有些相關的,高達 6243字,平均相關度達 86%。
2.2 形聲字音轉、聲兼義初探(詳第二篇)
由樣本 7376 通用字中,得出形聲字 6400個;若不計及四聲(陰平、陽平、上聲、去聲),及四呼(開口、齊齒、合口、撮口)的變化,聲符與其本字讀音,經綜合統計比較如次表:
類 別 字數
% 累計% |
說
明 |
0 聲韻全同 3688 58 58 |
聲近:發音部位相似者,例 -- b/p/m/f d/t/n/l g/k/h j/q/x
z/c/s y/w/v 韻近:韻尾收音相同或相似者,如 – i-
Ai/Ei/i u- Ao/Ou/u/Yu
[Ao=Au] n-
En/An ng-Ang/Eng Ong/Ang en/eng 聲(韻)似:轉聲(韻)較多者 |
1 韻同聲近 819 13
71 |
|
2 韻同聲異 782 12
83 |
|
3 聲同韻異 376 6 89 |
|
4 聲或韻似
485
7 96 |
|
5 聲韻全異
250
4 100 |
|
合計 6400 |
由上表可知聲符與其本字讀音,保持一致者約占58%。韻母相同者約 83%,聲母相同者為 64%,聲變較韻變為大;聲符表音的功能僅約 53%(0.83x0.64)。若計及聲調及介音的差異,則遠低于此數。
聲韻全同、韻同聲近者,約占字數的 71%,保持著形聲字若干的表音功能,是較理想的漢字形態。
文中統計了個別聲母及韻母音轉的頻率,並提出若干解說。依据音變的統計,參以漢語語音史的探索,及某些方言的考察,當可獲得一些漢字聲韻轉換的規律。此外,筆者對「聲兼義」問題,也作了概括性的初探,其目的在了解少數漢字字義與語音之間的關聯,提升學習興趣,因為漢字有些理据可解的,總比全無可解的好。
音符變例:雙音d=9 繁用簡f=11 簡用繁j=71 省聲p=222 省形t=170 變形v=29 雙形w=26 合計540 (8%)
音符含字數/音符數—
音符含字數 |
11up |
10-5 |
4 |
3 |
2 |
1 |
合計 |
音符數 |
138 |
411 |
127 |
162 |
174 |
188 |
1200 |
比例,% |
12 |
34 |
11 |
14 |
14 |
16 |
100 |
聲符及字音的韻母(含字數)
|
A |
O |
E |
Ai |
Ei |
Ao |
Ou |
I |
U |
V |
An |
En |
Ang |
Eng |
Ong |
合計 |
音符 |
311 |
248 |
360 |
156 |
355 |
434 |
334 |
924 |
605 |
223 |
899 |
512 |
393 |
418 |
228 |
6400 |
字音 |
320 |
297 |
418 |
200 |
328 |
466 |
308 |
861 |
535 |
217 |
909 |
485 |
415 |
421 |
220 |
6400 |
聲符及字音的聲母(含字數)
B |
P |
M |
F |
D |
T |
N |
L |
G |
K |
H |
J |
Q |
X |
Zh |
Ch |
Sh |
R |
Z |
C |
S |
Y |
W |
V |
Ae |
f 339 |
136 |
237 |
246 |
288 |
193 |
103 |
472 |
409 |
135 |
245 |
562 |
318 |
305 |
437 |
192 |
297 |
80 |
142 |
135 |
121 |
454 |
235 |
210 |
109 |
w287 |
229 |
260 |
194 |
310 |
277 |
145 |
477 |
270 |
198 |
321 |
495 |
312 |
381 |
361 |
273 |
249 |
87 |
144 |
121 |
147 |
372 |
190 |
180 |
120 |
2.3 漢字結構分析、繁簡體結構的差異(詳第三篇)
通用字結構可概分為:獨體型(O)、左右型(A類)、上下型(B類)、包圍型(C類)、複疊型(D類)五類。除獨體型外,每類各有若干構式。7376字繁簡體構式的比較如次表:
簡 體
|
繁 體 |
獨立型(O類)
670 9 % |
獨立型(O類)
525 7 % |
左右型(A類)
4429 60 % |
左右型(A類)
4280 58 % |
上下型(B類)
1468 20 % |
上下型(B類) 1374
19 % |
包圍型(C類)
358 5 % |
包圍型(C類)
366 5 % |
複疊型(D類)
451 6 % |
複疊型(D類)
831 11 % |
合計 7376 100 % |
合計 7376
100 % |
由上表可知,簡化字的複疊型結構只占 6%。而繁體的複疊型結構則增為 11%,可知簡化字對于精簡漢字的字型結構有相當的助益。
2.4 通用字部件擬案、形碼輸入、漢字字元化(詳第四篇)
本篇「通用字部件規範擬案」中所 設定的 322個字元(部件),乃從 7376通用字(含繁簡體),經字型結構分析 並統計後而得的結果,可用於「形碼輸入法」的碼元。
字元輸入法設定碼元 322 個(198組),適用於繁簡體,具有相同的輸入法則,所不同的是設計的部分碼元,因繁簡字形不同而略有差異,繁簡體各有專用碼元數個。字元輸入法的主要規則為:
1. 依漢字的自然筆序取首、次、三及末碼。
2. 相交相夾的字元,取碼時以字元起筆的先後為序。
3. 被囗(W)或冂(M)所包圍的字元可省略,但整字不及4碼者,應補足 4碼。
本篇中「漢字字元化」一章,乃討論漢字字形統一、優化,及字元合理化等問題。就兩岸目前通行的規範字 7376 個言,前述擬定的字元(部件),應可概括所有的通用字。
2.5 繁簡雜論(詳第五篇)
2.51 繁簡體的統合問題
目前台海兩岸各自頒布了通用字規範,本篇主要在討論兩岸規範的統合問題。首先要分析的,是繁簡體的差異,究竟有多大? 依樣本 7376 字之統計 –
繁簡體字形差異類別(參見附圖2)
例
字
字數
% |
0 完全相同 :
(略)
4699 64 |
1 只笔划略有不同 : 戶/户 呂/吕 別/别 敢/敢 奐/奂 勻/匀 吳/吴
120 2 |
2 只部首改变 :
軋/轧 紅/红 銅/铜 鱗/鳞 騎/骑 韓/韩 飼/饲
946 13 |
3
只音符或偏旁改变: 構/构 瓊/琼 協/协 勁/劲 偉/伟 癤/疖 徑/径 1069 14 |
4 完全不同 : 歸/归 龜/龟 線/线 馬/马 輪/轮 黽/黾 為/为
374 5 |
5 用较简笔的繁体字: 籲/吁 後/后 隻/只 術/朮 嶽/岳 傑/杰 幾/几 168 2 |
7376
100% |
由上表可知繁簡體字形完全相同的,占了 64%; 若再加上筆畫略有差異的第 1項,與只部首不同的第 2項,則繁簡體字形相同,及相差不多的比例高達 79% 。 繁簡體的差距,實不如一般人所想象的那麼大。
兩岸規範字的統合,是個攸關漢字發展前途的重要的文字工程,須專家學者,共同研究實施。統合的規範,是訂定一個字體標準,并非繁簡體並行的兩個標準。筆者對此問題提出的一些看法,只供參考而已。
2.52 簡化字的缺失及优化、漢字的再改革
評估簡化字,應把簡化字當作獨立的字系,從整個通用規範字的系統,加以考察;不宜逐字與繁體作比較。因大部分的簡化字,約定俗成,并非有系統的創造出來的。
規範的簡體字优化之後,再以繁簡體的常用字為準,作一次總檢討,并尋求漢字合理化的途徑。其範圍約可包括: a.) 字形的統一, b) 部首的劃一, c)形符、聲符的簡化,以及 d) 重文的整理等。
2.6 本文結語
漢字可概分為形聲字及形意字(非形聲)二大類。理想的形聲字約有 1,200標準聲符(聲旁),容許聲符在某個範圍內的音變,聲旁若不能表示漢字的正確讀音,也宜有近似的音值,以發揮漢字先天具有的形聲功能。
簡化字中約定俗成的符號字,可以它相應的繁體字為聲系。這類字只有一百多個,不妨繁、簡并學。形意字大都源于象形及會意,它的本義可以作簡單的解釋。每個漢字,都可在它的字頭或字尾,找出部首,部首大都代表漢字的意符。部首定性與定量的規範化,可提高漢字的排檢效率。漢字還必須字元(字母)化,以標準的字元按標準的筆序組字,使二維的文字成爲一維排列,以形成標準的形碼輸入法。
合理化的漢字應具有: 標準的字元(部件)、意符、聲符,以及規範的筆序與檢索方式。每個形聲字(含符號字)都有聲系可歸,每個形意字都有可解說的本義。
尋求通用漢字的合理化與系統化,增進漢字在教學上與傳訊上的效率,這便是漢字現代化的目標。也是基于這個愿望,筆者不自量力的,作了這一系列的試探性的計量研究。