通用字部件規範擬案
提要:本文以海峽兩岸的通用字(7376)為依據,逐一拆分統計,共得部件236組/356個,可作為形碼輸入法用的碼元的參考。部件中成字的有185,作部首的50,可與其它部件匹配的(配件)121,成字與部首合計235,占總部件數66%。
目錄: 1. 引言 2. 通用字的拆分 3.0 拆分結果 附表1,2
1.0 引言
大陸標準「GF
3001-1997 漢字部件規範」,制定了393組/560個部件。它乃依據:GB
13000.1 字符集中 20,902個漢字,逐字拆分,歸納及統計而得,指明其適用範圍為鍵盤輸入法等信息處理用。但因部件數目太多,不適合一般要求。筆者有見及此,乃嘗試就通用字範圍內加以拆分、統計並得部件236組/356個,作為形碼輸入法用的碼元。
統計分析的樣本共7,376字,包括大陸
7,000通用字、台灣 5,401常用字、台灣次常用字1,719。因漢字有相似的字形結構,就一般應用而言,這356個部件應可足敷所需。而就碼元在鍵盤的配比言,每個英文字母約有8-18
碼元,平均13個,也算合理。
2.0 通用字的拆分
2.1 拆分原則
1. 相離、相接可拆,例: 明[日月]、韭[非一]
2. 相夾(重)的部件(各部件的筆劃不交叉)可拆,例:
夾[大人人]、回[囗口]
3. 相交的部件符合一定條件者可拆(詳2.3節)。
4. 拆分後的部件(簡稱分元),須成字,或為部首,或可與其它部件匹配(配件);成字優於部首,部首優於配件。
5. 基本筆劃可作為部件,但拆分後的分元不可全是單筆劃。
2.2 拆分細則
1. 二筆劃的字不拆,通用字計有21個:二十丁厂七卜八人入乂儿九匕几刁了乃刀力又乜,均不拆。
2. 三劃以上的通用字(除部首外),符合2.1拆分原則者可拆,例如:
亍[一丁]、亏[一ㄎ]、乞[乙]、个[人丨]、么[丿厶]、勺[勹一]…。
3. 三劃的部首不拆;繁體部首以簡體的筆劃為準,例:馬(马)、門(门)、爿(丬),視同3 劃,不拆。
部首有變形者以筆劃少者為準,例:犬(犭)、糸(纟)
、食(饣)
、言(讠)、心(忄),亦不拆。
三劃的部首,依1983草案201標準,計有:干、工、士、土、廾、大、尢、寸、弋、口、囗、巾、山、彳、彡、夕、夂、丬(爿)、广、门(門)、宀、彐/彑、尸、己、弓、屮、女、飞、小、子、马(馬)、幺、巛 32個。另加:犭/犬、纟/糸、饣/食、讠/言、忄/心 5 個,均作單獨部件處理,不予拆分。
4. 組字頻率高的部件(如部首),雖相離相接,亦可不拆。
例: 自- 為部首鼻的部件,不拆成[丿目] 田- 為部首,不拆成[囗十]
习- 為部首’羽’的構件,不拆成[勹 冫]
5. 拆後的部件如不能作為他字的配件則以不拆為宜。例如”非”的左右偏旁不能與他字匹配,”非”不拆;同理,”亥”亦不拆。
6. 相夾部件可拆分,部件的次序,依起筆的先後而定。
例: 來- [木人人],起筆為木。 嗇- [土人人囗口],起筆為土。
夾- [大人人],起筆為大。
2.3 相交部件的拆分
1. 部件相交可照筆序分解者,可拆。
例: 中- [口丨] 弔- [弓丨] 弗- [弓] 事- [一口彐亅]
2. 相交的部件不依筆序,但合乎字理者亦可折。
例:秉- [禾彐],以手(彐)握禾穗。 東- [木日],日出樹(木)梢。
3. 為配合漢字方形結構,容許字元的外形或筆劃的長短作某些變化,以便與其它字元相交組合。
例: 重- [曰土],土之豎筆延長之與[曰]相交
堇- [廿口],之豎筆延長之與口相交;(容許方形口壓扁成長方形)。
禹- [丿口禸],禸之豎筆延長之與口相交
2.4 基本筆劃當作部件拆分
1. 五個基本筆劃:一(橫)、丨(直)、丿(撇)、(點)、乙(折),算不算漢字中的一個部件,曾有過爭議。我們且舉幾個字例來說明:旦、上、下,其中基本筆劃”一”在這三個字的字理中,均有地平線之意:日出於大地為”旦”,人(卜)在地平線之上為”上”,之下為”下” 。若可把它們拆分:旦[日一]、上[卜一]、下[一卜],折分後各分元均可成字,符合2.1所述拆分原則。又如:本、末,拆分後:本[木一]、末[一木],只留存”木”、”一”兩個部件。因此容許基本筆劃當作部件拆分,大大有助於減少漢字的部件總數。
2. 基本筆劃當作部件拆分的原則:依照筆序拆分,分後的部件,可以成字,或為部首/配件,其中至少含有一個多筆劃的部件者,均可拆分,(詳見<基本筆劃與部件>)例如:
基本筆劃一:天[一大] 末[一木] 基本筆劃丨:甲[曰丨] 中[口丨]
基本筆劃丿:夭[丿大] 生[丿]
基本筆劃丶:太[大丶] 玉[王丶]
3.0 拆分結果
共得部件 236 組,356
個,如表1. 所示。
1. 由 表1.
可知,356 個部件(字元)中,成字的(z)有185 (其中有兼作部首的),純作部首(b)的50
,作為配件(g)的有121;成字與部首共235,占部件總數66 %
2. 由表2.可知,有的部件在樣本7378字中,只出現1-2 次,這些低頻率的部件,如:
/1、/1、凸/1、 1、 /1、书/1、乜/1、龜/1、飞/1、/2、/2、/2、乎/2、刁/2、/2、為/2、为/2、丱/2…。
這些部件或有可以被取代的空間。例如 –
A. 部件 只出現在簡體 临
字上,如果临的右邊採用繁體 臨,則獨一的部件 即可取消。
B. 部件 只用於粼字,按粼是形容水波清澈、明淨的樣子,似可改從他部;或它的右旁改作常見的[巛],也同樣表達了水波的形貌。巛 雖多了一劃,但少了一個罕見的部件。
C. 簡體 书
原是草書,與楷體有點格格不入,不如改用繁體
書,其部件[聿、曰]都是現成的,而且有字理可說。
D.
可改從形似的[片爿],或改作現成的字元
,以表示鼎的三足。
E. 只用於簡體字丝,而丝(絲)不如改從現成的字元[纟糸],較符合’糸’旁一般簡化法則:即字首用纟字尾用糸。
F. 在通用字中只有姊的偏旁用 ,該字應廢棄不用,只用”姐”字。
G. 繁/簡體”帶/带”的字首字元,應同用成字”卅”取代之,這樣可省下二個字元。
要之,組合漢字的部件,應盡可能予以精減。尤其低頻率的部件,效用不彰,宜設法淘汰。這是簡化漢字、有利編碼輸入的最有效的方法。
組字頻率高的部件(成字或部首)依次為:口/1584,木/581,八/550,土/526,日/483,氵/427,十/425,人/410,艹/365,亠/358,月/354,扌/300,大/299,又/289,亻/280,目/277,冂/255,宀/246,匕/231,厶/226,冖222,女/218,糸/192,小/190,田/175,言/172,王/171,尸/170,止/168,虫/168,火/165,辶/164,灬/160,貝/156…,這些數據可供字元編碼時分配鍵盤代碼的參考。
表1.
356 部件(236組)編碼表
本表將類似字元以英文字母代碼編組,用以說明代碼與碼元間在聲韻(或字形)上有所系連。
z 表成字/185(其中有兼作部首的) b 表部首/ 50,g 表配件/121,(z+b)
235占總數66%
A1a大 z |
A1b夫 z |
A2a八 z |
A2b g |
A3 g |
A4 巴 z |
A5a马 z |
A5b馬 z |
A6 丫 z |
A7 牙 z |
A8 g |
A9 瓦 z |
B1 贝 z |
B2a勹 b |
B2b g |
B2c司边 g |
B3a宀 b |
B3b冖 b |
B4a卜 z |
B4b g |
B5 敝左g |
B6a匕 z |
B6b g |
B7 疒 b |
B8 卑 z |
B9 不 z |
C1a十 z |
C1b g |
C2a艹 b |
C2b b |
C2c卝 g |
C3a廾 b |
C3b丱 z |
C4a廿 z |
C4b g |
C5a卅 z |
C5b g |
C5c g |
C6a川 z |
C6b巛 b |
C7a虫 z |
C7b g |
C8 寸 z |
C9 才 z |
CA 丑 z |
Cba长 z |
CBb長 z |
CC 垂 z |
CDa車 z |
CDb车 z |
D1a刀 z |
D1b g |
D2a刂 b |
D2b g |
D3 刁 z |
D4a丶 b |
D4bㄟ g |
D5a冫 b |
D5b g |
D6 亠 b |
D7a g |
D7b g |
D8 g |
E1a耳 z |
E1b g |
E1c镸 g |
E2a阝 b |
E2b卩 b |
E2c⺋ b |
E3 二 z |
E4a儿 z |
E4b g |
E5a几 z |
E5b g |
E5c g |
E6 卂 g |
F1 方 z |
F2a匚 b |
F2b g |
F3 臣 z |
F4a 彑 b |
F4b彐 b |
F4c 彐 g |
F4d g |
F5a g |
F5b g |
F6a飛 z |
F6b飞 z |
F7 非 z |
F8 甫 z |
F9 发 z |
G1 工 z |
G2 弓 z |
G3 干 z |
G4a g |
G4b g |
G5a艮 z |
G5b g |
G6 革 z |
G7 g |
G8 瓜 z |
G9 龜 z |
GAa匃 g |
GAb丐 z |
GB 甘 z |
GC 更 z |
H1a一 z |
H1b丆 g |
H2a厂 z |
H2b广 z |
H3a火 z |
H3b灬 b |
H4 虍 b |
H5 乎 z |
H6 禾 z |
H7 亥 z |
H8惠上g |
I1a衣 z |
I1b g |
I2a衤 b |
I2b 礻 b |
I3a丨 b |
I3b亅 g |
I4a g |
I4b g |
I5丩 g |
I6 巳 z |
I7 以 z |
I8 夷 z |
I9 峦上 g |
J1a金 z |
J1b 钅 b |
J2 巾 z |
J3 斤 z |
J4 九 z |
J5 久 z |
J6 g |
J7 巨 z |
J8 及 z |
J9 旡 z |
JA 井 z |
JB 兼 z |
JC 见 z |
K1 口1z |
|
K3a g |
K3b g |
K4 丂 g |
K5 夬 z |
K6a畏下g |
K6b g |
L1a水 z |
L1b氵 b |
L1c g |
L1d g |
L2 立 z |
L3 力 z |
L4 了 z |
L5a 廴 b |
L5b辶 b |
L6 耒 z |
L7 耂 b |
L8 g |
L9 婁上g |
Laa龙 z |
LAb龍右g |
LB 留上g |
LC 丽 z |
LD g |
M1a門 z |
M1b门 z |
M2a冂 g |
M2b g |
M2c g |
M2d g |
M3a糸 b |
M3b纟 b |
M4a g |
M4b幺 z |
M4c乡 z |
M5 米 z |
M6a g |
M6b g |
M7 毛 z |
M8 g |
M9a母 z |
M9b毋 z |
M9c毌 z |
MA 黽 z |
MB 民 z |
N1 女 z |
N2a g |
N2b g |
N2c厶 b |
N2d g |
N3a g |
N3b g |
N4a烏 z |
N4b乌 z |
N5a牛 z |
N5b g |
N6 g |
N7 乃 z |
N8 疌 z |
N9 g |
O1 木 z |
O2 未 z |
O3 目 z |
O4 白 z |
O5 我 z |
O6 乐 z |
P1a竹 z |
P1b b |
P2 丿 b |
P3a g |
P3b g |
P4a g |
P4b g |
P5a彡 g |
P5b彳 z |
P6 皮 z |
P7a片 z |
P7b爿 z |
P7c丬 b |
Q1a曲 z |
Q1b g |
Q2a四 z |
Q2b g |
Q2c g |
Q3a b |
Q3b皿 z |
Q4a臼 z |
Q4b g |
Q5a且 z |
Q5b g |
Q6a犬 z |
Q6b犭 b |
Q6c豸 z |
Q7 七 z |
Q8 气 z |
Q9 丘 z |
QA g |
R1a人 z |
R1b亻 b |
R1c g |
R2 入 z |
R3 亼 g |
R4a g |
R4b 癶 g |
R5a日 z |
R5b曰 z |
R6 禸 z |
S1 石 z |
S2a山 z |
S2b屮 z |
S2c 屮g |
S3a凵 b |
S3b g |
S3c g |
S4a豕 z |
S4b g |
S5 尸 z |
S6a食 z |
S6b饣 b |
S7 鼠下g |
S8 书 z |
S9 身 z |
SA 氏 z |
SB 史 z |
T1a手 z |
T1b扌 b |
T1c b |
T2a丁 z |
T2b g |
T3 田 z |
U1a土 z |
U1b士 z |
U2a王 z |
U2b壬 z |
U3a b |
U3b g |
U4a g |
U4b g |
U5a丰 z |
U5b邦左g |
U6 g |
V1 月 z |
V2a g |
V2b g |
V3 g |
V4 g |
V5 予 z |
V6 于 z |
V7 雨 z |
V8 戉 z |
W1a為 z |
W1b为 z |
W2a囗 b |
W2b凸 z |
W3 戊 z |
W4a乙 z |
W4b g |
W4c乚 g |
W4d g |
W5 尢 z |
W6a兀 z |
W6b丌 z |
W7 韦 z |
W8 五 z |
X1a心 z |
X1b忄 b |
X1c b |
X2a小 z |
X2b g |
X2c g |
X2d g |
X3 g |
X4 习 z |
X5 夕 z |
X6 g |
X7a西 z |
X7b覀 b |
X8 g |
Y1a又 z |
Y1b乂 z |
Y2a夂 b |
Y2b攵 b |
Y3a弋 z |
Y3b戈 z |
Y4a g |
Y4b戋 z |
Y5 曳 z |
Y6a言 z |
Y6b讠 b |
Y7 g |
Y8a也 z |
Y8b乜 z |
Y9a业 z |
Y9b g |
YA 酉 z |
YB g |
YC g |
Z1 子 z |
Z2a止 z |
Z2b g |
Z3 之 z |
Z4 自 z |
Z5a爪 z |
Z5b爫 b |
Z6 舟 z |
Z7 专 z |
Z8 隹 z |
Z9 乍 z |
ZA 州 z |
ZB 丈 z |
ZC制左 g |
|
|
|
|
表2. 各部件含字量(舉例)
只列舉含字量少者(1-5字),表示此等部件組字的頻率很低。
含字量 1 (15個),例如: /鼎 /姊 凸/凸 /粼 /临 书/书 乜/乜 龜/龜 飞/飛 /丝 …。
含字量 2 (11個),例如:/殷慇 /呜乌 乎/乎呼 刁/刁叼 /帶滯 為/為偽 为/为伪
丱/關聯…。
含字量 3 (13個),例如:卅/卅带滞 爪/爬抓爪 /掖液腋 /拜看湃 /羲曦犧 曳/洩曳拽 /典碘腆 /擾憂優…。
含字量 4 (6個) ,例如:/烏嗚鎢塢 以/以似姒拟 /啣卸御禦 四/四泗駟驷 黽/鼇澠繩蠅 /凹兕鐫雋…。
含字量 5 (12個),例如:ㄐ/叫赳收糾纠 发/拨发废泼酦 卝/敬羋歡寬宽 井/耕井阱讲进 /归筛师狮帅 专/专传砖转啭 /擦蔡察祭際…。