通用字部件規範擬案

 

提要:本文以海峽兩岸的通用字(7376)為依據,逐一拆分統計,共得部件236組/356個,可作為形碼輸入法的碼元的參考。部件成字的185,作部首的50,可與其它部件匹配的(配件)121,成字與部首合計235,占總部件數66%

目錄  1. 引言    2. 通用字的拆分    3.0 拆分結果   附表1,2

 

1.0  引言 

大陸標準「GF 3001-1997 漢字部件規範」,制定了393組/560個部件。它乃依據:GB 13000.1 字符集中 20,902個漢字,逐字拆分,歸納及統計而得,指明其適用範圍為鍵盤輸入法等信息處理用。但因部件數目太多,不適合一般要求。筆者有見及此,乃嘗試就通用字範圍內加以拆分、統計並得部件236組/356個,作為形碼輸入法的碼元

統計分析的樣本共7,376字,包括大陸 7,000通用字、台灣 5,401常用字、台灣次常用字1,719。因漢字有相似的字形結構,就一般應用而言,這356個部件應可足敷所需。而就碼元在鍵盤的配比言,每英文字母約有8-18 碼元,平均13個,也算合理。

 

2.0  通用字的拆分

2.1  拆分原則

1.  相離、相接可拆,例:  明[日月]、[非]

2.  相夾(重)的部件(各部件的筆劃不交叉)可拆,例: 夾[大人]、回[口]

3.  相交的部件符合一定條件者可拆(詳2.3節)。

4.  拆分後的部件(簡稱分元),須成字,或為部首,或可與其它部件匹配(配件);成字優於部首,部首優於配件。

5.  基本筆劃可作為部件,但拆分後的分元不可全是單筆劃。

 

2.2  拆分細則

1.  二筆劃的字不拆,通用字計有21個:二十丁七卜八人入乂儿匕几刁了乃刀力又乜,均不拆。

2.  三劃以上的通用字(除部首外),符合2.1拆分原則者可拆,例如:

       [一丁][][][][丿厶][]…。

3.  三劃的部首不拆;繁體部首以簡體的筆劃為,例:馬()、門()、爿(),視同3 劃,不拆。

部首有變形者以筆劃少者為,例:犬()、糸() 、食() 、言()、心(),亦不拆。

三劃的部首,依1983草案201標準,計有:干、工、士、土、廾、大、尢、寸、弋、口、囗、巾、山、彳、、夕、夂、()广()/、尸、己、弓、屮、女、、小、子、() 32個。另加:/犬、/糸、/食、/言、/ 5 個,均作單獨部件處理,不予拆分。

4. 組字頻率高的部件(如部首),雖相離相接,亦可不拆。

    例: 自- 為部首鼻的部件,不拆成[丿]       田- 為部首,不拆成[囗十]

      - 為部首的構件,不拆成[ ]

5. 拆後的部件如不能作為他字的配件則以不拆為宜。例如的左右偏旁不能與他字匹配,不拆;同理,亦不拆。

6. 相夾部件可拆分,部件的次序,依起筆的先後而定。

     例: 來- [木人人],起筆為木。   - [土人人囗口],起筆為土。   夾- [大人],起筆為大。

 

2.3  相交部件的拆分

1.  部件相交可照筆序分解者,可拆。

    : - []       - []       - []       - [一口彐亅]    

2.  相交的部件不依筆序,但合乎字理者亦可折。

例:秉- [],以手()握禾穗。      - [木日],日出樹(木)梢。

3.  為配合漢字方形結構,容許字元的外形或筆劃的長短作某些變化,以便與其它字元相交組合。

    例: 重- [曰土],土之豎筆延長之與[]相交     

- [廿口],之豎筆延長之與口相交;(容許方形口壓扁成長方形)    

- [丿口禸],禸之豎筆延長之與口相交 

 

2.4 基本筆劃當作部件拆分

  1. 五個基本筆劃:(橫)、(直)、丿(撇)、(點)、乙(折),算不算漢字中的一個部件,曾有過爭議。我們且舉幾個字例來說明:、上、下,其中基本筆劃在這三的字理中均有地平線之意:日出於大地為,人(卜)在地平線之上為,之下為 。若可把它們拆分:[日]、上[卜一]、下[卜],折分後各分元均可成字,符合2.1所述拆分原則。又如:本、末,拆分後:本[木]、末[木],只留存兩個部件。因此容許基本筆劃當作部件拆分,大大有助於減少漢字的部件總數。

2. 基本筆劃當作部件拆分的原則:依照筆序分,分後的部件,可以成字,或為部首/配件,其中至少含有一個多筆劃的部件者,均可拆分,(詳見<基本筆劃與部件>)例如:

基本筆劃一:天[一大]   末[木]         基本筆劃:甲[曰]    中[口]

基本筆劃丿:夭[丿]   [丿]          基本筆劃:太[]    []

 

3.0  拆分結果

共得部件 236 組,356 ,如表1. 所示。

1. 由 表1. 可知,356 部件(字元)中,成字的(z)有185 (其中有兼作部首的),純作部首(b)的50 ,作為配件(g)的有121;成字與部首共235,占部件總數66 %

2. 由表2.可知,有的部件在樣本7378字中,只出現1-2 次,這些低頻率的部件,如:

*/1、/1、/1、 1、* /1、/1、乜/1、龜/1、/1、/2、/2、/2、乎/2、刁/2、*/2、為/2、/2、丱/2…。

這些部件或有可以被取代的空間。例如

A. 部件 * 只出現在簡體 字上,如果的右邊採用繁體 臨,則獨一的部件 * 即可取消。       

B. 部件  只用於字,按是形容水波清澈、明淨的樣子,似可改從他部;或它的右旁改作常見的[],也同樣表達了水波的形貌。 雖多了一劃,但少了一個罕見的部件。

C. 簡體 原是草書,與楷體有點格格不入,不如改用繁體 書,其部件[聿、曰]都是現成的,而且有字理可說。

D.  可改從形似的[片爿],或改作現成的字元 ,以表示鼎的三足。

E.   只用於簡體字,而()不如改從現成的字元[],較符合旁一般簡化法則:即字首用字尾用糸。

F.  在通用字中只有的偏旁用 ,該字應廢棄不用,只用字。

G. /簡體/的字首字元,應同用成字取代之,這樣可省下二個字元。

 

要之,組合漢字的部件,應盡可能予以精減。尤其低頻率的部件,效用彰,宜設法淘汰。這是簡化漢字、有利編碼輸入的最有效的方法。

 

組字頻率高的部件(成字或部首)依次為:/1584,木/581,八/550,土/526,日/483,/427,十/425,人/410/365/358/354,/300/299,又/289,/280/277,/255/246/231,/226222,女/218,糸/192/190,田/175,言/172/171,尸/170,止/168,虫/168,火/165/164/160,貝/156…,這些數據可供字元編碼時分配鍵盤代碼的參考。         

 

             表1. 356 部件(236)編碼表

本表將類似字元以英文字母代碼編組,用以說明代碼與碼元間在聲韻(或字形)上有所系連

   z 表成字/185(其中有兼作部首的)  b 表部首/ 50g 表配件/121,(z+b) 235占總數66%                                                

A1a大 z

A1b夫 z

A2a八 z

A2b  g

A3   g

A4 巴 z

A5a z

A5b馬 z

A6 丫 z

A7 牙 z

A8   g

A9  瓦 z

B1 z

B2a b

B2b  g

B2c司 g

B3a b

B3b b

B4a卜 z

B4b  g

B5 g

B6a z

B6b  g

B7 b

B8 卑 z

B9 不 z

C1a十 z

C1b  g

C2a b

C2b  b

C2c g

C3a b

C3b z

C4a廿 z

C4b  g

C5a卅 z

C5b  g

C5c  g

C6a川 z

C6b b

C7a z

C7b  g

C8 寸 z

C9 才 z

CA z

Cba z

CBb長 z

CC 垂 z

CDa車 z

CDb z

D1a刀 z

D1b  g

D2a b

D2b * g

D3 z

D4a b

D4b g

D5a b

D5b  g

D6 b

D7a  g

D7b  g

D8  g

E1a耳 z

E1b  g

E1c g

E2a b

E2b b

E2c b

E3 二 z

E4a z

E4b  g

E5a z

E5b  g

E5c  g

E6 卂 g

F1 方 z

F2a b

F2b  g

F3 臣 z

F4a b

F4b彐 b

F4c g

F4d  g

F5a  g

F5b  g

F6a飛 z

F6b z

F7 非 z

F8 z

F9 z

G1 工 z

G2 弓 z

G3 z

G4a  g

G4b  g

G5a z

G5b  g

G6 革 z

G7  g

G8 瓜 z

G9 龜 z

GAa匃 g

GAb z

GB 甘 z

GC 更 z

H1a z

H1b丆 g

H2a z

H2b广 z

H3a火 z

H3b灬 b

H4 b

H5 乎 z

H6 禾 z

H7 z

H8g

I1a衣 z

I1b  g

I2a b

I2b b

I3a b

I3b g

I4a * g

I4b  g

I5 g

I6 z

I7 以 z

I8 夷 z

I9 g

J1a金 z

J1b 钅 b

J2 巾 z

J3 z

J4 九 z

J5 久 z

J6   g

J7 巨 z

J8  及 z

J9 z

JA 井 z

JB 兼 z

JC z

K1 口1z

K2   g

K3a  g

K3b * g

K4  丂 g

K5 z

K6ag

K6b  g

L1a水 z

L1b b

L1c  g

L1d * g

L2 立 z

L3 力 z

L4 了 z

L5a b

L5b b

L6 耒 z

L7 b

L8   g

L9 g

Laa z

LAb龍g

LB 留g

LC z

LD   g

M1a門 z

M1b z

M2a g

M2b  g

M2c  g

M2d  g

M3a糸 b

M3b纟 b

M4a  g

M4b幺 z

M4c z

M5 米 z

M6a  g

M6b  g

M7  毛 z

M8  g

M9a母 z

M9b毋 z

M9c毌 z

MA 黽 z

MB 民 z

N1 女 z

N2a  g

N2b  g

N2c b

N2d  g

N3a  g

N3b  g

N4a烏 z

N4b z

N5a牛 z

N5b  g

N6   g

N7 乃 z

N8 疌 z

N9   g

O1 木 z

O2 未 z

O3 目 z

O4 白 z

O5 我 z

O6  z

P1a竹 z

P1b * b

P2  丿 b

P3a  g

P3b  g

P4a  g

P4b  g

P5a彡 g

P5b彳 z

P6 皮 z

P7a片 z

P7b爿 z

P7c b

Q1a曲 z

Q1b * g

Q2a四 z

Q2b  g

Q2c  g

Q3a  b

Q3b皿 z

Q4a臼 z

Q4b  g

Q5a且 z

Q5b  g

Q6a犬 z

Q6b犭 b

Q6c豸 z

Q7 七 z

Q8 气 z

Q9 丘 z

QA   g

R1a人 z

R1b亻 b

R1c  g

R2 入 z

R3  g

R4a  g

R4b g

R5a日 z

R5b曰 z

R6 禸 z

S1 石 z

S2a山 z

S2b屮 z

S2c g

S3a凵 b

S3b  g

S3c  g

S4a豕 z

S4b  g

S5 尸 z

S6a食 z

S6b b

S7 鼠g

S8 z

S9  身 z

SA 氏 z

SB 史 z

T1a手 z

T1b扌 b

T1c  b

T2a丁 z

T2b   g

T3 田 z

U1a土 z

U1b士 z

U2a王 z

U2b壬 z

U3a  b

U3b  g

U4a  g

U4b  g

U5a z

U5b邦g

U6   g

V1 月 z

V2a  g

V2b  g

V3   g

V4   g

V5 予 z

V6 于 z

V7 雨 z

V8 戉 z

W1a為 z

W1b z

W2a囗 b

W2b凸 z

W3 戊 z

W4a乙 z

W4b  g

W4c g

W4d  g

W5 尢 z

W6a兀 z

W6b丌 z

W7 z

W8 五 z

X1a心 z

X1b忄 b

X1c  b

X2a小 z

X2b  g

X2c  g

X2d  g

X3   g

X4 z

X5 夕 z

X6  g

X7a西 z

X7b b

X8   g

Y1a又 z

Y1b乂 z

Y2a b

Y2b攵 b

Y3a弋 z

Y3b戈 z

Y4a  g

Y4b z

Y5 曳 z

Y6a言 z

Y6b讠 b

Y7   g

Y8a也 z

Y8b乜 z

Y9a z

Y9b  g

YA 酉 z

YB  g

YC  g

Z1 子 z

Z2a止 z

Z2b  g

Z3 之 z

Z4 自 z

Z5a爪 z

Z5b b

Z6 舟 z

Z7 z

Z8 隹 z

Z9 乍 z

ZA 州 z

ZB 丈 z

ZC制 g

 

 

 

 

            

2.  各部件含字量(舉例)

     只列舉含字量少者(1-5字),表示此等部件組字的頻率很低。                                                                     

含字量 1 (15),例如: */  */  /  /  */  /  /  /  /  / …。

含字量 2 (11個),例如:*/殷  */呜乌  乎/乎呼  刁/刁叼  */帶滯  為/為偽  /为伪  /關聯…。 

含字量 3 (13個),例如:卅/卅带滞/爬抓爪 /掖液腋 /拜看湃 */羲曦犧 /洩曳拽 */典碘腆 */擾憂優…。

含字量 4 (6個) ,例如:/烏嗚鎢塢  以/以似  /啣卸御禦  四/四泗駟  黽/鼇澠繩蠅  */凹兕鐫雋…。   

含字量 5 (12),例如:/叫赳收糾  /拨发废泼酦  /敬羋歡寬  /耕井阱讲进  */归筛师狮帅  /专传砖转啭  */擦蔡察祭際…。