漢字字元化的探討                           nc\ay.doc

      提要                                         

        漢字字元(部件)化是適應電腦作為書寫工具的要求的,用紙筆寫字是一筆筆的寫上去,但用電腦書寫,則是一組筆劃(字元)進行輸入。如何使漢字部件標準化,是本篇的主題。作者就通用字7,380個拆分實驗的結果,擬定了通用字標準部件322個,歸納為198組。為使漢字字元化,作者還建議某些漢字的字型須作若干修改。

 

目錄

             1.0  引言                     2.0  筆劃與字元               3.0  漢字的拆分 

              4.0  漢字拆分的實驗          5.0  漢字字元的標準化         附件 通用字字元表(322)

                  

1.0   引言

    由漢字字体遞變的史實考察,書寫工具對于漢字字形有相當影響,在甲骨上刻字,與在陶土或金屬上刻字,所用的書寫器具不同,其字形自有差異。如果沒有毛筆的發明,篆棣之變也許不會發生。使用毛筆的結果,零亂的曲折的字形,簡化成了線條分明的筆劃;漢字終于成為以筆劃為符號的表意字體--楷書。

    近二千年來,楷書的字形雖有些微更改或簡化,大体保持隱定狀態: 它是以五種基本筆劃 -- 橫、直、撇、點、折 -- 及一定筆序為主的二維文字。以毛筆書寫,它是一筆一筆的表現在紙張上。但若以電腦形碼輸入,它就要以筆劃組成的單元(字元)輸入字碼,才可顯字在螢幕上。可以預見的,電腦這種新的書寫工具,對于日後漢字的字形發展必有相當影響。所謂漢字字元化,便是擬定標準的漢字字元(部件),及其組合法則,使二維的文字,在電腦輸入時,作定序的一維排列。

    迄今為止漢字尚無標準化的字元(部件),因此也沒有統一的形碼輸入法。筆者擬在這篇論文中,提出一個方案,試行建立漢字的'標準字元';并以7380 個通用字(包括繁簡体)為樣本,逐字分析實驗,列出它的字元組成,以證實漢字'字元化'的可行性。在實驗中也發覺漢字複雜的字形結構,實有統一或簡約的空間,而這有待於大家的討論及認同。

 

2.0   筆劃與字元

2.1   基本筆劃

    漢字是由字元組合而成的,而字元則是由筆劃組成,筆劃本身也是個字元。例如--[木]這個字元,加上[一]之後,就可組成單字: 本、末、未;[大]加上基本筆劃後,就成為: 天、夭、犬、太、夫。為減少標準化的字元數目,就要盡量利用基本筆劃與其他基本字元組字。如上例 :

: 木一 

: 一木

: 丿

: 一大 

: 丿

:

: 一大

 

基本筆劃的類別:

   橫 - 自左而右 :        包括 挑 D 

   - 自上而下 :        包括 豎勾 亅

   - 自右上而左下 : 丿   包括各式的撇

   - 自左上而右下 :    包括點

   折 - 各式的折筆   : 乙   包括所有的單筆折或彎

 

筆劃中的挑是橫的變形,是運筆時的自然趨勢;故土作偏旁時末筆變作,牛作偏旁時,橫筆亦變成挑,如[堆、塊、特、牡],挑筆都是指向次一筆。

    筆劃內的豎勾,也是書寫時的趨勢,左勾的下一筆均在左上,如[寸、才、牙、矛、弟、句],右勾的下一筆大都在右上,如[民、氏、卯],因此豎勾基本上就等於豎筆。又如木之豎筆原不帶勾,常因連寫而誤作[亅]。

    筆劃中的捺,其功用與點同,故木作偏旁時末筆由捺變作點,如[材、杜、林]等的左旁。

 

2.2   字元

    字元(部件)是由漢字拆分後所成的組字單元 (elements),標以字碼後,用作電腦輸入。但漢字如何拆分,拆分的準則為何? 這留待下文討論。現在先把字元與字元之間的結合關係,加以說明。

  字元的結合的順序,基本上與筆劃的書寫相似 --

      自左而右      相當於 一          馱 獨 羽 翔 明 汨  (左右并聯)

      自上而下      相當於           呂 召 高 昌 字   (上下串聯)

      自右上而左下  相當於 丿          句 連 寸 句   (右斜聯)

      自左上而右下  相當於           左 疲 尼   (左斜聯)

  

大部分漢字是由上述四種順序混合而成,例如 盟: 1. 日->月=明,    2. 明=盟

字元互相夾、交的,其筆劃交替書寫,字元筆劃交叉的叫相交,不交叉的叫相夾;字元的排列,則以起筆之先後為序:

   相夾  --  夾 : 大 人 人 (起筆為大)    或 : 戈 口 一 (起筆為戈)      : 囗 玉

             武 : 一 弋 止               乖 : 千 北               困 : 囗 木  

             哥 : 丁 口 丁 口            來 : 木 人 人

   相交  --  甲 : 曰 (起筆為曰)       秉 : 禾   (起筆為禾)        申 : 曰 (起筆為曰)

             夷 : 大 弓 (起筆為大)       東 : 木 日  (起筆為木)        柬 : 木 四 (起筆為木)

                             

3.0    漢字的拆分

3.1    拆分的原則

    為尋求共同的漢字字元,漢字須加以拆分,拆分的原則為 --

  1. 成字原則 : 拆分後的字元以能成字為佳,拆分盡可能符合字源原理。

  2. 匹配原則 : 拆分後的字元雖不成字,但有與其它字元組字的能力。

 

3.2    拆分的規則

  1. 分离的字元,可以拆分: 如 台:口, 旦:日一

  2. 相接的字元可拆分,分後的字元,須能作構字的部件:

          百: 一白      下: 一卜     孝:

  3. 相夾的字元,可拆分,其字元以起筆的先後為序:

  巫:工人人     坐:人人土

  4. 合成頻率高的部件,雖相離相接,亦可不拆:

          自: 為部首鼻的部件,不拆成[丿]      田- 為部首,不拆成[囗十]

            : 為部首羽的部件,也不拆分。

5. 相交的字元,其拆分條件,詳下節。

    

3.3  相交部件(字元)拆分的規則如次:

1. 字元相交,可照筆序分解者,較易辨識,可拆--

       :           :           : 囗 十       :          :   

         : 一口      :  曰 土      :       :      

2. 字元相交,不照筆序分解、但符合字理者,亦可拆 --

       夷- [大弓]相交,指背弓矢之人(大),夷可拆為大弓。

         東- [木日]相交,日出樹梢,東可拆為木日。

3. 多元相交時,最末字元的豎筆常須加長筆劃,以便與其它字元相交組合 --

       堇- 廿口  (洶局搧坏[長,以便與口相交)      禹-丿 口 禸 ( 之豎筆加長以便與口相交)

         重- 曰土 (土之豎筆加長,以便與曰相交)    禺- 曰 禸   ( 之豎筆加長,以便與曰相交)

 

4.0  漢字拆分的實驗

4.1  拆分實驗的取樣字集

   大陸通用字7,000,台灣常用字5,401,次常用字1,700,包括繁、簡体,合計7,380組。

 

4.2  漢字拆分實驗的結果

拆分結果犰@得部件 198 組,323 個,詳如附件。

 

5.0  漢字字元的標準化

5.1  繁簡体字形的統一

    例如: /戶、/舌、/勻、/敖、/反、/底、/次 同一字,只因點撇之差,字碼的設定,因字形而有不同,實須改正劃一。

5.2  字元的合理化

1. 有的字,其中的點劃,容易漏寫:

例如:'類' [米犬頁] -- 犬常誤作大,擬照簡体'' 改'大';

又如: [乂朮几又] -- '朮'宜照簡体'' 改從'木'。

  2. 有些字中的基本筆劃,可算是贅筆,例如:

    以[] 為聲符的字,中間字元'一'是贅筆,繁体字全部保留著;簡化字如''已省略'一'; 但簡化字中的'彀'尚未省去此贅筆。又如,以[]為聲符的字(微徽黴) 其中字元'一'也是贅筆,若能省略,對于電腦輸入有好處,可以避免同碼 --

           

     一般輸入法  

  省'一'前同碼 

  省'一'後異碼

 [彳山一儿]

   取首次三及末碼

 [彳山一] PSHY

 [彳山 儿 ] PSEY

 [彳山一糸]

   取首次三及末碼

 [彳山一] PSHY

 [彳山 糸 ] PSMY

 [彳山一]

   取首次三及末碼

 [彳山一] PSHY 

 [彳山  ] PSQY

 

3. 梁粱的上半部,應從常見的字元 [],為何要多一點? '爰'是兩手[爪又]互援之意,中間字元'一'若能省略,則'爰'[爪友],比較易寫易記。

     此外,'隆'從 [阝夂 一 生],其中字元'一'常漏寫,也算是贅筆。

     要之,除非這些可省的筆劃,在字原學上有很大的功用,否則應考慮精省。漢字字元化的目的,除便於電腦'書寫'外,也有利于漢字的教學。依上述諸例來說,轂[士車殳],梁[刃木],爰[爪友],隆從[阝夂 ],都是由常見的字元或單字組成,學生書寫或認字時,可以字元(非筆劃)為單位加以認知。

 

5.3  字元數目的簡約

    有些字尚停留在圖畫階段,例如[鼎],本字實可由三個已有的部件[目爿片]組合而成,如此可省約鼎的兩個特殊構件。 附件1. <字元總表>中 322個字元實尚有可省減之處,例如部首/同部異形,應可劃一,倘若'彖'的字頭改從[],則字元''便可取消。又如''的上半部,若能改從成字的'戈'或'弋',就不必設定字元''了。又如:,改從[],字元[]可省略;,右旁改從右旁,[*]可省略;夜改從[],字元[]可省掉。粼若可借用[],不僅易於歸部,粼的右偏旁亦可省卻。---只須改動少數筆劃,就能精減字元的數目,似乎值得考慮修訂。

 

附件   通用字部件總表(322 部件,198)

   每格第一欄為部件編碼,第三欄: z 表成字145(其中有兼作部首的)b 表部首 50個, g 表配件 127 個,

   成字與部首(z+b) 195個,占部件總數61 %   

A1a大 z

A1b夫 z

A2a八 z

A2b  g

A2c  g

A3a z

A3b馬 z

A4 巴  z

A5 丫 z

A6 牙 z

A7   g

A8 瓦 z

B1 不 z

B2   b

B3 k  g

B4a b

B4b b

B5a卜 z

B5b f g

B6   g

B7a匕 z

B7b   g

B8  b

C1a十 z

C1b g

C1c  g

C2a b

C2b \ b

C2c g

C3  廾 b

C4 丱 z

C5a廿 z

C5b  g

C6a卅 z

C6b 卌  g

C6c g

C7a 虫 z

C7b  g

C8 寸 z

C9 才 z

Ca 丑 z

Cb  z

D1a刀 z

D1b b

D1c  g

D2  刁 z

D3ab

D3b g

D4a b

D4b   g

D5a *

D5b  g

D6  b

D7    g

D8a  g

D8b  g

E1a耳 z

E1b  g

E1c  g

E2a b

E2b b

E2c b

E3 二 z

E4a儿 z

E4b g

E5a几 z

E5b  g

E5c g

F1 方 z

F2a匚 b

F2b  g

F3 臣 z

F4ab

F4bb

F4c g

F4d g

F5a  g

F5b  g

F6 飛 z

F7 非 z

F8 甫 z

G1 工 z

G2  弓 z

G3 干 z

G4a g

G4b  g

G5a艮 z

G5b  g

G5 革 z

G7  g

G8  瓜 z

G9 龜 z

H1a一 z

H1b  g

H2az

H2b广 z

H3a火 z

H3bb

H4  虍 b

H5 乎 z

H6 禾 耵z

H7  z

H8 叀 g

I1a衣 z

I1b b

I1cb

I2   g

I3ab

I3b   g

I3cg

I4a * g

I4b   g

I5   g

J1a 金 z

J1b b

J2 巾 z

J3  斤 z

J4 九 z

J5 久 z

J6 g

J7  g

J8   g

J9a車 z

J9b z

Ja  巨 z

Jc 及 z

Jd 井 z

K1 口 z

K2a   g

K2b  g

K3 *  g

K4  kg

K5  夬 z

K6a  g

K6b  g

L1a水 z

L1b b

L1c 氺 g

L1d * g

L2 立 z

L3 力 z

L4  了 z

L5ab

L5b b

L6   g

L7  b

L8   g

L9   g

LAa z

LAb   g

M1a門 z

M1b z

M2a g

M2b  g

M2c   g

M2d  g

M3a糸 z

M3b b

M4az

M4b  g

M4c z

M5 米 z

M6a   g

M6b   g

M6c   g

M7  毛 z

M8   g

M9 母 z

Ma   g

Mb 黽 z

N1 女 z

N2a   g

N2b g

N3a g

N3b g

N4a   g

N5a  g

N5b   g

N6a  g

N6b  g

N7a牛 z

N7b  g

N8  g

N8 乃 z

N4b b

P1b d b

O1a木 z

O1b  g

O1c未 z

O2  目 z

O3 白 z

P1a竹 z

P2b丿g

P3a  g

P3b  g

P3c  g

P3d  g

P4a g

P4b彳 z

P5  皮 z

P6a片 z

P6b爿 z

P6c b

Q1a 曲 z

Q1b g

Q2a四 z

Q2b I g

Q2c g

Q3a 罒 b

Q3b皿 z

Q4a臼 z

Q4b x g

Q5a犬 z

Q5bb

Q5c豸 z

Q6 七 z

Q7  气 z

Q8a且 z

Q8b  g

R1a 人 z

R1b b

R1c  g

R2 入 z

R3 g

R4a  g

R4b g

R5a日 z

R5b 曰 z

S2a山 z

S2b屮 g

S2c * g

S3a凵 b

S3b   g

S3c   g

S4a豕 z

S4b 乑 g

S5 尸 z

S6a食 z

S6bb

S7 石 z

S8    g

S9  z

Sa 身 z

T1a手 z

T1b b

T1c  b

T2a丁 z

T2b  g

T3a田  z

U1a 土 z

U1b士 z

U2a王 z

U2b 壬 z

U3a b

U3b  g

U4a   g

U4b   g

U5a  z

U5b  g

U6 g

V1  月 z

V2a  g

V2b   g

V3    g

V4b  g

V5   g

V6 予 z

V7 于 z

W1a 為 z

W1b z

W2a囗 b

W2b   g

W2c 凸 z

W3  戊 z

W4 乙 z

W5 尢 z

W6  兀 z

X1a 心 z

X1b b

X1c  b

X2a小 z

X2b  g

X3a  g

X3b   g

X4   g

X5 z

X6  g

X7   g

X8 夕 z

X9a西 z

X9b b

Y1a又 z

Y1b乂 z

Y2a夂b

Y2b b

Y3a弋 z

Y3b  g

Y4a戈 z

Y4b  g

Y4cz

Y4d  g

Y5 曳 z

Y6a言 z

Y6bb

Y7 g

Y8a也 z

Y8b乜 z

Y9a z

Y9b   g

Ya 酉 z

Yb   g

Yc g

Z1 子 z

Z2a止 z

Z2b  g

Z3  之 z

Z4  自 z

Z5a爪 z

Z5b 爫 b

Z6 舟 z

Z7 z

Z8 隹  z