常用及通用字的部件及基元  9/07修正

 

主旨

相对于拼音文字而言,汉字可认为是拼形文字。拼形基元应是汉字最小的结构单位,亦可称为汉字字母,可自拆分汉字而得。

汉字的主要缺点是字形结构过于复杂,若能找出一组精简的汉字基元,按照一个标准的笔序,就可较轻易的去组合繁、简通用字。

在拆分实践过程中,去发现汉字的结构问题,建议优化一些字,是本文的另一目标。

 

1.0   取样范围

 

无疑的,两岸现行规范字应为取样的首要对象。取样的范围有二:

1.     样本1.(rtc) 常用字:包括大陆规范(陆规)3,500个,台湾规范(台规)5,401个,两者并列为5,451组,分列为7,199字。参见下表,此5,451个常用字,除包括台规全部常用字(5,401)外,实际上还包括了陆规次常用字1,575(下表标记e)

2.     样本2.(ptc) 通用字:包括陆规7,000个,台规 5,401个,次常用1719两者并列为7,376组,分列为9,784字。参见下表,其中还包括不在一方规范但在他方规范内的字,以及一对多262个繁体字。

两岸规范字的相互关系,看来相当复杂(下表)。笔者为求通用字的部件及基元,所要拆分的字,总共是 9,784个。

 

               台规、陆规标准字之关系表

 

陆规常用字

陆规次常用字

陆规外

简一繁多

  合计

台规常用字

3450 (c)

1575(e)

114 (a)

262 (r)

5401  (台常)

台规次常用字

  47 (b)

1672 (d)

 

 

1719  (台次常)

台规外

   3 (g)

 253(f)

 

 

 256  (台规外)

   合计

3500(陆规常)

3500(陆规次常)

114

262

7376 (样本2)

 

 

2.0   拆分原则

 

就现有多家部件理论及定义中,我比较同意费锦昌先生的说法。他认为部件是 现代汉字字形中具有独立组字能力的构字单位,它大于或等于笔画、小于或等于整字。 因此我的拆分原则只有一条:拆分后的部件,可否与他字匹配,作为独立的构字单位,如可就拆;否则就把它当作一个部件。匹配意为通用性,是指部件有较强的独立组字能力,可以参与两个以上不同结构的构字。通用性符合部件理论提出的意义, 可视为部件的重要特征。但是在具体运用该原则时,各种理论间存在一定分歧。因此为实践拆分作业,避免拆分的任意性,须定出一些拆分规则。


   拆分要避免任意把笔划断开,或重复使用同一笔划,这样才可保持汉字的属性(笔划数目)于不变。拆分要按照笔序;对于互相

交夹的部件,则要按起笔的先后为序;有次序的拆分才会有利于汉字的学习。

 

拆分有二义性时,须衡量不同选项的权重大小,以大者为优先:


A. 就部件与部件间的界面言:离 > > (重迭,但笔划不交叉) > (重迭,但笔划相交)
B. 就拆分后的部件言:成字 > 部首 > 构件(可与他字匹配的部件)而就笔划言,多笔划>单笔划
C. 就有、无理据言:有字理 > 无理据

 

拆分后的部件,可作为编码输入的参考,因此部件拆分常须考量部件的含义及其编码运用的得失。但为求汉字基元 (字母),不少部件须再行拆分,以便得到较节约的基元数量。基元拆分大都只考量汉字的字形结构,不涉及含义。

 

 

3.0 拆分规则 

 

1. 拆分后的部件不可全是单笔划,故2笔划的字不拆,例:

   二十丁厂七卜八人入乂儿九匕几刁了乃刀力又乜…均作为部件。

 

2. 部件相离、相接者可拆,例: 

[日月]、乞[]、个[人丨]、么[丿厶]、勺[勹丶] 、亍[一丁]

 

但三划的部首虽相离亦不拆,如:寸、弋、彡、彳、丬、小、巛…不拆。

 

繁体或变形部首视同简体,原则上亦不拆,(部首内容以GB-201为准),例:

()()、金()、手()、心()、示()()()、犬()()()()()()均不拆。

 

但求基元时,若拆开的子部件成字、或可作为复笔部件者,可拆,例:

[二口]、示[二小][]、糸[幺小]、食[],均可拆开

 

3.  拆开后的部件,如無組字能力,而只與本匹配者,不拆。   

例:-  非的左右部件只可与组字不分

: - u虽无组字能力,但所余部件可与他字匹配,故曹可拆 u,二部件

同理:典、北、娄、段、殷、叚、鼎均可拆 

 

4. 相夹部件可拆,部件的次序,依起笔的先后而定。例:

- [木人人],起笔为木;   [大人人],起笔为大;   [囗口],起笔为囗

 

5. 相交部件拆分的条件如次:

A. 相交部件如能依笔序分解者可拆。例:

 - [丿口禸]    

- []

- [曰土] (土之竖笔延长之与 相交)

- [廿口]  (之竖笔延长之与口相交)

 

B. 不照笔序分解,但有字理可依者,亦可拆,例:

- [大弓]    - [木日]    - []

      

6. 基本笔划(单笔划)的拆分

A. 非相交的单笔划: 丿   可拆,如:

[一内]、歹[一夕]、正[一止] [非一]、引[弓丨]、矛[予丿]、乏[丿之]、失[丿夫]、釆[丿米]、血[丿皿]、主[丶王]、良[丶艮]、户[丶尸]、尤[尢丶][]…。

 

但组字频率高的部首其单笔划亦不拆出例:

(不拆为丿木)    (不折为丿目)    (不拆为一土)    (不拆为丿曰)

 

但求基元时可拆,例:

[丿]、气[][丿日]、禾[丿木]、自[丿目]

 

B. 相交的单笔划则不拆,例:

中、甲、申-- 单笔划 [] 与其它部件相交,不拆。

 

但求基元时可拆,例:

[]、甲[]、申[]

 

单笔划 [ ] 视同搭挂,不算相交,可拆,例如:

[刀丶]、丸[九丶]、孓[]

 

4.0     常用部件表 (364) 

 

拆分繁简常用字7,199个后所得的结果:繁、简体部件共 364个,平均码长3.48,其中繁体专用17(标记*)

部件中包括:成字z=182  部首 b=52  构件 g=130   (构件旁注明拆分前的字例,如: )  

A z

A z

A z

A g

A g

A z

A z*

A z

A z

A z

A g*

A z

B z *

B z

B b

k B g

B g

  B g

B b

B b

B z

f B g

 B g

B z

 B g

B b

 B g

B z

C z

C g

C b

 C b*

C g

C z

C z

廿C z

GC g

C z

C g

C g*

C z

C b

C z

 C g

C z

C z

C z

C z

C z *

C z

D z

D g

D b

*  D g

  D g

D z

D b

D g

D b

^ D g

D b

uD g

D g

D g

D z

E z

 E g

 E g

E b

E b

E b

E z

E z

 E g

E z

 E g

E g*

 E z

F z

 F g

F b

 F g

 F g*

F z

F b

F b

  F g

F g

 F g

 F g

F z

F z

F z

  F z

G z

G z

  Gg

G g

G z  

 G g

 G g

G z

G g

G z

H z

H g

H z

广H z

H z

H b

H b

H z

H z

H z

H g

H g

I z

  I g

I b

I b

I b

N g

* I g

] I g

I g

I z

I z

 I g

J z

J b

J z

J z

J z

 J g

J z

J z

J z

J z

K z

 K g

*  K g

K g

K z

 K g

 K g

 K g*

L z

L b

 L g

* L g

L z

L z

L z

L b

L b

L b

 L g

 Lg*

L z

 L g*

 L z

L z

L z

M z *

M z

M b

 M g

* M g

 M g

M b

M b

* M g

M z

M z

M z

 M g

 M g

 M g

M z

s M g

M z

M z

M z

 M z*

 M z

N z

* N g

N g

N b

(次常)

 N g*

  N g

N z

 N g

  N g

N z

N z

O z

O z

O z

O z

L z

O z

O z

P z

P b

丿P b

 P g

P g

 P g

 P g

P b

P z

P z

P z

P z

P b

Q z

Q g

Q g

Q z

I Q g

Q g*

Q b

Q z

Q z

 Q g

Q z

 Q g

Q z

Q b

Q z

Q z

Q z

Q z

Q z

R z

R b

R g

y R g

R z

R g

R g

R g

R z

R z

R z

S z

S z

S z

S g

S b

 S g*

 齿S g

S z

  S g

S z

S z

S b

 S g

S z

S z

S z

S z

S z

Jz()

T z

T b

 T b

T z

T g

T z

T z

T z

U z

U z

U z

U z

U b

 U g

 U g

 U g

U z

 U g

U g

V z

 然V g

 V g

V z

V g

 V g

V z

V z

V z

(肀一)

V g

 W z*

W z

W b

W z

 W g

W z

W z

W z

W g

 W g

W z

W z

W z

W z

W z

W z

W z

X z

X b

j Xb

X z

* 步X g

X g

X g

 X g

X z

X z

西X z

X b

 X g

Y z

Y z

Y g

Y g

Y b

Y b

Y z

Y z

 Y g

 y g

 Y g

Y z

Y z

Y z

Y b

Y g

Y z

(次常)

Y z

 Y g

Y z

r Y g

Y g

Y z

Y z

Z z

Z z

g Z g

Z z

Z z

Z z

Z b

Z z

Z z

Z z

Z z

Z z

Z g

Z z

Z g

I z

 

 

如果容许基本笔划相交,则下列 14部件可取消:甲吏末疌本申电由屯肀中

 

5.0  通用字部件表 (366)

 

拆分了两岸通用规范字(ptc)9,784,共得繁、简部件366个,平均码长3.56多数部件负载或多或少的“语义信息”或“语音信息”,少数部件属于“纯形部件”,没有具体意义。其中:成字z=183,部首b=52,构件g=131

下表内英文大写字母为编码的类别,部件下方数字表静态的组字频率,例如 9,784个字中出现了402次。字频最高的为 ,共2,302次,其次为,计972,木784,土765,十662,日664,人602。只出现 1-2 次的低频部件共 8个:成字的有书、凸、乜、丱、;不成字的有 本表构件在拆分前的字例可参考 4.0常用字部件表,例如:/

 

           通用字部件表 (366)                                                   

A  z

402

A z   99

A z   486

A g   223

 A g   375

A z    40

A z*   70

A z    68

A z    15

A z    20

 A g*    8

A z    16

B z*  265

B z   220

B b   213

 B g    14

 B g    27

 B g

8

B b   332

B b   316

B z    43

  B g   104

 B g    15

B z   345

 B g    14

B b   133

 B z    25

B z    25

C z   662

] C g   128

C b   602

 C b*    55

C g    11

C b    70

C z     2

廿C z   101

GC g    98

C z     3

 C g     7

 C g*    2

C z    13

C b    48

C z   265

 C g    27

C z   179

C z     9

C z    14

C z     9

C z*  100

C z    92

D z   150

D g   241

D b   149

* D g     5

 D g

6

D z     3

D b   334

D g    25

D b    67

^ D g    53

D b   452

uD g     7

X g    10

D g     3

D z    16

E z   123

 E g   35

 E g    32

E b   218

E b    47

E b   66

E z   115

E z   213

 E g   57

E z   131

 E g    20

E g*   20

 E z   32

F z    91

 F g    64

F b   106

 F g     5

 F g     9

F z   35

F b    23

F b    10

 F g    115

F g    54

 F g    11

 F g   23

F z     3

F z    45

F z    39

 F z     5

G z   141

G z   92

 G g    28

G g    13

G z    47

 G g    29

 G g    16

G z   15

G g    24

G z    22

H z  972

H g   178

H z   167

广H z   150

H z   259

H b   197

H b    64

H z     7

H z   165

H z    21

H g    13

K g    10

I z    28

 I g    75

I b    79

I b    49

I b    66

N g     8

* I g    21

* I g      8

I g     6

I z    52

I z     5

 I g    41

J z   260

J b   236

J z   119

J z    50

J z     7

* J g     3

J z    13

J z    19

J z    31

J z    16

K z  2302

* K g    13

 K g     3

K g    61

K z    16

 K g    55

 K g     6

 K g    14

L z    42

L b   581

* L g    53

* L g   29

L z   197

L z   149

L z    12

L b    24

L b   203

L b    63

* L g    32

 L g*   21

L z    21

L g*   21

 L z    40

L z     2

L z

8

M z*   77

M z    75

M b   331

 M g    8

 M g    38

 M g    5

M b   255

M b   158

* M g    4

M z   135

M z    15

M z   157

* M g    12

 L g    23

  M g    39

M z    38

 M g    16

M z    24

M z     3

M z     7

 M z*   11

 M z   12

N z   288

* N g    55

 N g    16

N b   319

N g () 1

 N g*   84

 N g    82

N z    50

 N g    64

 N g    54

N z    23

N z     3

O z   784

O z     6

M g    6

O z    29

L z    27

O z   200

O z   154

P z    63

P b  110

丿P b   491

 P g    57

 P g   117

 P g    31

 P g    57

P b  102

P z    81

P z    31

P z    16

P z    35

P b    13

Q z   15

Q g     3

Q g    8

Q z     4

I  Q g   55

Q g*   26

Q b   144

Q z   140

Q z    79

 Q g   23

Q z    39

w Q g    36

Q z    65

Q b   104

Q z    17

Q z    29

Q z    29

Q z    20

Q z    10

R z   602

R b   363

R g   181

 R g    28

R z    49

R g   212

 R g    12

R g    29

R z   664

R z   220

R z    47

S z   155

S z   202

S z    24

S g    36

S b    90

S g*   17

r S g    14

S z    58

 S g    18

S z   237

S z    62

S b    48

 S g    22

S z     1

S z    13

S z    22

S z    14

S z    23

J z

30

T z    25

T b   399

 T b     3

T z   113

T g   110

T z   263

T z    46

T z    21

U z   765

U z   123

U z   242

U z    43

U b   119

 U g    41

 U g   147

 U g    24

U z    45

 U g    16

U g    27

V z   493

 V g    25

 V g     3

V z

103

V g   98

 V g    25

V z    46

V z    14

V z    73

()

6

V g     9

 W z*   4

W z     4

W b   160

W z     1

 W g    3

W z    54

V z     5

W z    34

W g    67

 W g    93

W z    22

W z    58

W z    11

W z    20

W z    23

W z    32

W z

11

X z   215

X b   168

 X b     7

X z   165

* X g    29

 X g    85

 X g    26

 X g    17

X z   180

X z   159

西X z    23

X b    44

X g     4

Y z   406

Y z   113

 Y g   176

Y g

6

Y b   165

Y b   174

Y z    38

Y z    76

 Y g    36

 y g    42

 Y g    19

Y z    12

Y z     3

Y z   215

Y b   161

  Y g     2

Y z    17

Y z     1

Y z    56

 Y g    56

Y z    84

r Y g     4

Y g    18

Y z    13

Y z    12

Z z   116

Z z   256

 Z g    92

Z z     8

Z z    33

Z z     4

Z b    99

Z z    38

Z z     6

Z z  184

Z z    26

Z z     3

 Z g    32

Z z    18

Z g   22

I z

76

 

 

 

  6.0  常用、通用部件表的比较

 1. 出乎我的意料的,通用字(7,376)比常用字(5,451)的部件数目只多二个:一为次常用字,一为罕见的的部件 。两部件表的其它部件(364)完全相同。这表示汉字字量虽然增加,但组合汉字的组件却少有改变。这给我们一个启示:由通用字寻找一组精简的汉字基元是有相当的代表性的。

  2. 汉字拆分时原则上取全息码,除少数字之外,均可在7个码元内取毕。依统计,常用字的平均码长为3.48,通用字码长为3.56

  3. 少数超出7码的字包括:从的字(囔、攮、齉),从的字(/、巉、饞/馋、儳、镵);其它繁复字如 /、籲/、鬮/、爨、懿、灩/、籪/、獮/、躊/、囈/呓…,这些字有的已经简化,有的尚待进一步研讨改善。

    各码字数如下表

码数

1

2

3

4

5

6

7

>7

总字数

平均码长

常用字

168

1231

2557

1979

873

301

69

21

7199

3.48

通用字

176

1494

3442

2800

1270

454

116

32

9784

3.56

 

 

7.0 通用字基元

 

5.0366部件表中,摘取108个再行拆分(详下附表),拆分依下列条件:

1. 拆时依笔序进行,所成的子部件(基元),至少须有1个为部件表中的现成部件

    2. 相交单笔划可拆。拆分的目的在减少基元的数量,部件如无法减量的便不拆分。

    3. 组字频率高的独体字或部首,其单笔划亦可拆。

                   

   拆分结果:

    1. 原是一个部件的,拆分成多个子部件(基元),如[^],其中^为旧的,[]为新增的。

    2. 新增基元共8个:, []外圈,[]中间,[]首二笔[]下部,[]末件[]末件,[]首件

    3. 原有部件直接当作字母的共258个,即(366-108),加上新基元8个,故通用字基元为266个。

 

通用字基元(字母) (266)

依笔划及 (H)、直(I)、撇(P)、点(T)、弯(W)的顺序排列

 

z

b

g

丿 b

b

g

 g

 g

 g

g

(11)

z

 

 

 

 

 

 

 

 

 

H

z

z

g

b

g

z

g

z

 g

z

(72)

g

g

 

 

 

 

 

 

 

 

I

z

 g

b

*  g

 g

 g

b

 

 

 

   P

z

b

 g

g

z

 g

z

 g

z

  g

 

 g

g

 g

 g

z

b

g

z

 

*

*  g

z

 

 

 

 

 

 

 

   T

g

b

* 

b

b

b

^ g

 

 

   W

z

z

z

b

b

b

a g

 g

z

z

 

b

g

g

b

* g

 g

 g

  g

g

z

 

z(

g

 

 

 

 

 

 

 

83

H

z

b

b

z

z

z

b

z

z

 g

(71)

 g

g

 g

z

 

 

 

 

   I

z

 g

 g

 g

z

b

z

g g

g

 g

 

z

 

 

 

 

 

 

 

 

   P

z

z

g

 g

dg

b

z

y g

b

g

 

b

 g

z

b

 

 

 

 

 

 

   T

b

 g

 g

广z

b

b

b

z

 g

b

   W

z

b

 g

z

z

b

z

b

 

z

z

 g

g

 g

g

g

z

 g

154

H

z

z

z

 b

g

廿 z

z

z

z

z

(55)

b

 g

 b

z

  g 

z

z

z

z

 

   I

g

 g

z

* g

z

z

b

z

 g

z

   P

 g

 g

z

 g

z

z

b

z

 b

z

 

 g

g

 g

z

z

g

 

 

 

 

   T

z

b

* g

z

z

b

 

 

 

 

W

z

z

z

 

 

 

 

 

209

H

 g

z

z

 g

g

z

 g   

 

 

I

g

 g

b

z

z

z

z

z

g

 g

(28)

z

 

 

 

 

 

 

 

 

 

   P

b

 g

z

 

 

 

 

 

 

T

b

 g

 

 

 

 

 

 

 

 

 W

g

z

 

 

 

 

 

 

237

H

z

 g

西

 g

 

 

 

 

 

14 I

 

 

 

 

 

 

 

   P,T

 g

z

 g

 

 

 

251

9

z

  g

g

g

z

z

x g

*

 

八↑6

 g

 

 

 

266

 

  附表 可拆分的部件 108

A z ()

A z ()

B z (目八)

B z (冂人)

L B g ( )

B b (广冫)

B z (丿丿)

GC g (艹一)

C z ()n

q C g ()

D z ()

E g ()

  E z ( *)

F z  ()

F z (匚丨)

F z ()

G z ()

G g ()

G g ()

G z ()

G g (勹人)

H z (丿木)

H g (一曰)

I z ()

I z ()

 I g ( )

J z ()

J z ()

J z ()

J z ()

K g ()

z (a人)

L z  ()

L z (木)

L g (鉹f)

L z (一口乂)

M b (幺小)

M z (丷木)

Y z (二口)

s g (丿)

M z ( )

M z ( )

M z ()

M z (一木)

* N g (丿彐)

 N g ()

N z (丿)

N g (丿土)

N z (一pg)

O z (一木)

O z (木一)

O z (丿日)

Q z ()

Q g (艹一)

Q g ()

Q z ( )

g ()

Q z (一乙)

Q z (* 丅一)

Q z (氺丶)

R z ()

S z (丆口)

S z (凵丨)

S g (凵丿)

s(人人一人人)

 g ()

S z ()

S z (丿)

S z (廿)

S z ()

S z ()

J z (目儿)

T z ()

T z ()

U z (丿士)

V z ()

Vz (田一)

V z ()

V z ()

g (十口)

g ()

W z ()

S z ()

W z (一儿)

z ()

W z ()

W z ()

X z ()

X g (一止)

 X g ( )

b ()

Y z ()c

Y g ()

r Y g (丆月冖)

Y z (丿)

Y z ()

Y g(丶丶丶)

Z z (了一)

Z z (丿目)

Z z (丿*)

Z z ( )

Z z (一乂)

Z g ()

Z z ()

g ()

W z ()

I z (二小)

A z (二人)

 

 

8.0 结语 

1. 本文中初步拟定的 266 个汉字基元草案,虽可涵盖繁简字约10,000个,但是否允当周密,有待大家讨论拟议,才能逐渐修订完妥。

 

2. 在拆分实践过程中,发现某些汉字,虽然繁复,但基元可依笔序,逐个书写。例如 ,由壹、恣二字合成,其基元依序为:士冖一口 人心,共9个,基元数目固然多,但各个基元独立,而且完全顺序,没有分解的困恼。

 

3. 另有一类汉字,它的字型结构则不同,各基元间互相穿插,且有字形变异的情况,拆分起来颇费周章,例如:”承”,从手,丞声;其部件原为[丞手],但二者穿插迭合,不便分析。又如“釁”()它的基元为 x冂一口冖酉八刀,其中字头部件臼同的界面是夹插关系,增加了复杂性;倘若依()的简化方式,把字头简为[],就可完全依笔序书写了。

 

4. 汉字拆分的目的之一是编码输入,另一个是有助于认字书写。如果固执于交重不分的原则,把汉字活生生的去头掐尾,例如把拆成[丿,],会使人觉得那重省丿的字符怪怪的。其实交重本是汉字造形的原创,例如就是大人人3元相夹,的简化字夹,就是 2元相交。因此我主张交夹的字可拆,只是拆分时要照规定的顺序进行。

5. 部件依笔序拆分,有助于写字教学,也有助于修正字形。例如繁体拆分为  p p a 6个部件,是依由中而侧由左而右的笔序进行的,各部件分列明显,书写时易于遵循。常見龜的字形把右侧部件a与左侧部件pp连写,虽省了两笔,却使部件界限混淆不清,实宜予以改进。

 

6. 把完全依照笔序书写的基元,编以代码,例如前述9个基元编为SDHKCBQRX,化二维结构为一维排列,这样的拼形文字,在字型结构上言,是否可与ABCD…的拼音文字比美呢?倘若汉字能有统一的标准基元,组字时各个基元完全独立,并可依标准的笔序书写,(未达标准的加以优化。)而且拼形汉字又有 意象化 组词灵活 的优点;那末,我们有什么理由去搞拼音汉字呢。当然如果不能达到这个要求时,就另当别论了。