通用字的基元设想与统计

1.0 引言
汉字作为华人文化讯息的载体,具有优缺点;优点不谈,缺点主要有二 ---
1.)
构形复杂:笔者对此曾有所分析,请参见 ---
http://www.pkucn.com/redirect.php?tid=270073&goto=lastpost#lastpost
2.)
序性不足:不像英文字母那样可按字母排序。
如果汉字能找到构形的最小单位(简称基元),就可能按一定的方式排序。即把传统的笔划序,改为基元(笔群)序。基元相当于英文字母,只是排序方式有二维与一维之别。
问题是如何拆分才能找到基元?而且这基元须是大家所共认的,其数量不宜太多。笔者认为寻找基元没有快捷方式,须从一个样本的实验着手。
假定样本是简繁通用字7300,拟定不同的拆分原则,经过3次拆分实验,得到如下结果:

折分实验

拆分原则

所得结果

 

1次

交重不拆,不取笔划

字元521

;           咸;       再;      

2次

交不拆,重拆,取笔划

字元418

           (戊一口); (一冉);   

3次

交重拆,取笔划

基元300

(千2十十土);(戊一口); (一); (了一)

 

上表第1次拆分所得的字元521个,可用作字形结构型式(构式)的统计。第3 次的拆分最为澈底,共得到字元 293个,可认为是通用字的最小单元(基元)。因这基元尚未得到大家的认同,只能算是笔者个人的设想。尤其因交重的拆分方式,因人而异,会得到不同的结果。下节将说明笔者如何拆分,请大家讨论指正;抛砖引玉,希望得到一个共认的通用字基元表。

 

2.0 交重拆分的说明
1.
交与重的区别:例如 - 字元”大人人”各不相交,叫做重;夹 - 字元”大䒑”相交,叫做交。
2.
相交拆分的方式:
  以”里”为例,有的拆成 田、土,竖笔丨重复;有的依笔序先后拆成 曰土,容许[]的竖笔穿插于[]内。我选用后者,因为它能保持”里”的笔数在拆分前后不变。同理 ---  
重:千(2)     土的竖笔须贯穿3个字元
垂:千(2)十十土  土的竖笔须贯穿千2
黑:    土的竖笔须穿插于” ”内
熏:千(2) 土灬  土的竖笔须贯穿3个字元
要之,相交的字元须照字元的笔序拆分,而且其中一个字元的一个笔划,可容许贯穿其它字元。

3.
相重的字元,以起笔之先后为序---
    夾:大人人, 起笔为大
    咸:戊一口  起笔为戊

 

3.0 基元的编码
依基元的笔划及首、末笔的性质编码:
例如 毛,首笔为丿(P),末笔为乚(Z),共4笔,编码为 4pz。其它基元亦同样编码,并依基元的笔数及首、末笔的性质,排列如次表(300)

基元依笔数及笔划性质作 ”札” 字序排列:H []I []P [丿]T [/]Z []

 

/

H

I 

P

,T

Z

 

1

丿

乚乙

12

2h

𠂇

 

七匚

10

2i

 7

2p

(2) 𠂉

𠂆

九儿 几勹

16

2t

 

 

 5

2z

了凵 丩卩

17

3h

于廾 

23

3i

 

9

3p

饣彳

𠂎

12

3t

 

广

忄氵辶

11

3z

纟马 

18

4h

廿

瓦长

22

4i

 

 

11

4p

𠂔

𧘇

20

4t

 

 

心火 为灬

 

 7

4z

𠃜

 7

5h

𠀎

 

𡗗

 

13

5i

且凸四田皿 目业罒

 

 

13

5p

 

 

 9

5t

 

 

 

 2

5z

𢀖

 

 

 7

6h

耳西

 

 

 7

6i

 

 5

6p

 

𠂭 𧰨

𦈢

11

6t

 

 

 

 

 4

6z

 

 

 

 

 2

7h

 

 6

7i

 

 

 

 2

7p

 

 

 

 4

7t

 

 

 

 2

8+

 

 

 6

300

65

54

37

93

51

300

 

所谓基元,应是拆分后的最小单元;观察上表,尚有基元可分而未分者,其原因如次:
a.
拆分后的字元,只能与本身匹配,拆分反而增加基元数量 --- 非…。
b. 拆分后的字元,其中一个虽可与其它字元匹配,却另产生1个新字元,不能节省基元数量--
  
𢀖 成…。
例如皮> 又,[]可与其它字元匹配,而 [] 则不在上述基元表内,是个”非通配”的新字元,拆分所得,只是以[] [],故不如不拆。
c.
本基元表是初拟,尚待改善;且基元数300,仍嫌多,最好能在286(=26x11)之内。

基元的笔划数自18+,分布如次表,基元的平均笔划约3.8

基元笔划

up

合计

基元数

12

55

73

67

44

29

14

6

300

 

 

4.0  基元的组成
基元的组成包括:1.成字162(兼部首88 )2.部首45 3.组件93;详下列1,2,3各表。
基元中成字及部首约占2/3,组件只占1/3

1.
成字162

广

廿

西

 

 

 

 

 

 

 

2. 部首45

丿

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3. 组件93 (=(2)

𠃌

𠂇

𠂉

𠂎

𠂔

𧘇

𠃜

𠀎

𡗗

𢀖

𠂭

𧰨

𦈢

 

 

 

 

 

 

 

 

5.0 基元(293)的组字量
组字量表示基元的组字效率,下表依组字量的大小排列,以口为最多。

1715

935

761

603

549

544

530

丿 522

474

467

382

353

349

329

329

328

325

320

320

317

314

305

294

293

𠂉 287

271

255

255

242

237

236

236

229

220

广 216

189

189

177

176

170

169

169

165

159

158

155

154

𠃌 153

147

147

146

144

144

139

137

137

134

134

131

130

128

125

121

118

118

116

115

114

110

109

108

102

98

98

94

𠂇 88

85

84

83

82

81

80

79

78

78

廿 78

78

77

76

75

75

𧘇 74

73

72

70

68

68

67

65

63

62

62

62

𧰨 62

61

60

59

59

59

58

58

58

56

55

54

54

51

50

50

49

47

46

46

46

46

46

44

44

44

43

43

43

42

42

41

40

37

36

36

𠀎 36

36

35

34

34

34

𠂆 33

33

33

33

32

32

31

31

31

31

31

30

30

29

28

27

27

26

26

25

25

24

24

24

𡗗 24

24

24

24

24

23

23

23

22

22

22

21

21

21

21

20

20

20

20

20

20

18

18

18

𢀖 17

16

16

16

西 16

16

15

15

61

15

15

15

15

14

14

13

13

13

13

13

𠃜 13

13

13

13

13

12

12

12

12

12

12

12

12

12

12

12

11

11

11

11

11

10

10

10

10

10

9

𠂎

 9

9

9

9

9

8

8

8

8

7

7

7

6

6

6

 6

6

6

5

5

5

5

5

4

4

4

4

4

4

4

 4

4

4

4

4

4

𠂭 4

𦈢 4

3

3

3

𠂔 3

3

3

3

3

3

3

2

2

2

2

2

2

1

1

1

1

1

1

 

严格说来这不是所组的字量,而是组字的基元量。二者有区别,例如,車的基元量98,实际组字96,因 中多了2个基元。
: (96) 輿
基元组字量只有1个字者有 乜、、卌、凸、糹、 6字,本样本中从 纟旁的字有 158个,从 糹的字只有”儸”1字。从卌的只有舞字,繁体[]字以简体[]字取代,可知若样本全部采用繁体,则组字量的统计将有所不同。

 

6.0  基元的键盘配置
1.
下表乃基元在英文键盘上的配置,主要乃依基元的读音(声或韵)而拟定的,用意只在映射它们之间的联系,作为探索汉字构形内涵的工具,并不作为一般输入法之用。

基元(300)

1

丿

𠃌

12

2

𠂆

12

3

 

 

10

4

 

 

 

 

 

7

5

𧰨

12

a

12

b

 

11

c

 

 

10

d

 

 

 

 

8

e

 

 

 

 

8

f

 

11

g

广

12

h

 

 

 

 

 

 

 

5

i

𧘇

12

j

𢀖

12

k

 

 

 

 

 

 

 

5

l

12

m

𠃜

12

n

 

11

o

廿

𠂇

 

 

 

9

p

 

 

 

 

 

 

 

5

q

2

 

 

 

9

r

𠂉

 

 

 

 

 

7

s

12

t

 

 

 

 

 

 

 

 

4

u

𠀎

 

 

 

 

8

v