通用字基元排序的实验

本文是前文<通用字的基元设想与统计>的续篇。前文请参见北大中文论谭http://www.pkucn.com/redirect.php?tid=270414&goto=lastpost#lastpost

1.0 前文摘要

a. 基元概念的说明:基元是汉字字形结构上的基本单位,应自拆分字形而得。但基元亦可认为是汉字蕴涵的基本讯息。因此有些在上可拆分的基元,不予拆分;例如[],与[]所含的基本讯息完全相同,[]可不必拆分而可比照[]成为一个独立的基元。

b. 基元的组成:包括 成字部首组件三种。基元中成字及部首约占2/3,组件只占1/3

c. 拟案的300多个基元曾与560<规范部件>作比较:规范部件中 可直接用作基元 289个,其它须把部件再拆分或合成,才可得到与拟案形似的基元。这项比较显示汉字有相同或相似的字形结构,即使把样本从原有的7300字增至2万字,所需增加的基元种类,亦十分有限。
d. 前篇曾统计基元的组字量组字量表示基元的组字效率,以[] 为最多。共有1500多个,占样本总字数730021%,意即每5 个通用字中就有1个含[]的字。

e.前篇把部分基元加以分析,例如基元[]大略可分为二方面来解析:

1) 构形上的 ---[]在字中的位置有的在上( ) 在下( ),在中( ),有的与其它字元 相交 ( )

2. 功能上的---有的任作部首(口、言),有的做为声旁或组件 ( )

 

2.0本文旨意

本篇主要就汉字基元的实用方面,作进一步的探讨。样本字数己从7303增至7515,以便纳入与简体结构迥异的繁体字。

至目前为止,汉字排序主要有音序、形序二大类。音序借助于汉拼,固可概括整个汉字,但必须先会默记每个字的音读,才能查到字。形序以部首为主,而以笔划为辅,不能一步到位的检索汉字。迄今还没有一个全字形”的一气呵成的检字法。四角号码只取汉字的零星碎片,未能窥见字形全貌,更是不足为训。

那么引进[基元]的概念,除了分析汉字的字形结构之外,对于汉字排序及检索方面,是否也有所助益呢?这就是本篇要讨论的主题。

首先,汉字基元本身没有序性,必须先行编码,以字码为序;而这又必须借助于具有序性的英文字母或数目字。而且在硬件上还必须使用一个标准的英文键盘,以收编码检索、合用现成的各式软件之效。

 

3.0基元编码原则

如何把汉字拆分成为基元,并如何利用汉字固有的讯息来编码,是为本文的主要课题,也是引进基元概念能否有用落实的成败要素。

关于拆分方式,前篇虽有所说明;也曾从样本7300字作拆分实验,得出约300个左右的基元。但拟案的基元字型及数量,仍会随着实验的进展,加以增减或扬弃。本篇乃就最新的资料加以讨论的。

 

编码方面则须考量如下3个汉字固有的属性:

a.音读:300个基元中约有200 个是成字或部首,它们或多或少与读音有关连。基元音读虽大部分可与英文的辅音字母(consonant)连系,但英文的主音字母(vowel)a,e,i,o,u也要尽量利用,以使每个字母代表的基元数量不超过13个。

b. 笔数:这是汉字的属性之一,宜善加应用;尤其不少笔数低的基元,只是汉字的组件,不具有音、义;除笔数外,没有其它因素可资联想记忆。

c. 笔划性质:即 横、竖、撇、点/捺、折,分别以 HIPT/UZ表之。

 

一般基元的编码,由读音、笔数、首次笔的性质组成,例如:

基元

编码依据

编码

代表键

丿

笔数1

1P

1

笔数3

3PP

3

音读dA

A3HP

A

音读Bo

B2PZ

B

音读Dao

D2II

D

 

 

4.0 基元编码全表

 

310個基元以數字1~4、英文字母A~Z編碼,詳如下表:

基元

鍵名

編碼

依據

1

1H

1

/亅

1

1I

1

丿

1

1P

1

1

1T

1

1

1U

1

1

1V

1

1

1W

1

𠃌

1

1X

1

1

1Y

1

㇄/乚

1

1Z

1

2

2HH

2

2

2HI

2

2

2HP

2

2

2IH

2

2

2II

2

2

2IP

2

2

2IQ

2

2

2

2PH

2

2

2PI

2

2

2PJ

2

2

2PP

2

𠂆

2

2PQ

2

2

2ZI

2

3

3HH

3

3

3HI

3

3

3HP

3

3

3HZ

3

3

3IZ

3

3

3PI

3

3

3PK

3

3

3PP

3

3

3TT

3

3

3TU

3

3

3ZZ

3

4

4IW

4筆

4

4IX

4

4

4IY

4

4

4IZ

4

4

4PI

4

A

A2PU

bA

A

A2PV

bA

A

A2PW

chA

𠂭

A

A2PY

chA

A

A3HP

dA

/馬

A

A3ZZ

mA

A

A4HI

wA

A

A4HZ

yA

/爫

A

A4PP

zhuA

A

A4ZI

bA

A

A5PH

zhA

A

A5PQ

guA

B

B2IT

Bu

B

B2PZ

Bo

B

B2TT

Bing

B

B2ZP

Bi

B

B3HH

Bei

B

B3TV

Bao

B

B4HP

Bu

B

B4IZ

Bei

B

B5PI

Bai

B

B5TH

Bing

B

B7TU

Bi

C

C2HP

Chang

C

C3HI

Cai

C

C3HI

Cun

C

C3PI

Cuan

C

C3PP

Chi

/長

C

C4PH

Chang

C

C4ZI

Chou

𡗗

C

C5HH

Chun

C

C6HK

Chen

C

C6HQ

Cheng

C

C6IZ

Chong

C

C7HJ

Chang

C

C8HR

Cang

D

D2HI

Ding

D

D2II

Dao

D

D2ZP

Dao

D

D3PZ

Dong-

D

D4HP

Dai

D

D5PI

Duan-段

D

D6IZ

Dian-典

E

E2PX

Er

E

E2PY

Er

E

E2ZI

Er

E

E2ZJ

Er

E

E2ZZ

Er

E

E6HI

Er

E

E6HP

Er

F

F2HY

Fang

F

F3HZ

Fang

F

F3ZH

Fang

F

F3ZZ

Fang-彐

F

F4HH

Feng

F

F4HJ

Fu

F

F4TH

Fang

F

F5ZP

Fa

F

F5ZT

Fa-發

F

F7HI

Fu

F

F8IH

Fei

G

G3HH

Gan

G

G3HI

Gong

广

G

G3TH

Guang

G

G3ZH

Gong

G

G4HL

Gai

G

G4HZ

Ge

G

G5HJ

Gan

G

G5IY

Gu

G

G5IZ

Gu

G

G5ZH

Gen~艮

G

G5ZI

Gen-根

G

G6IY

Ge-鬲

G

G7HK

Geng

G

G9PZ

Gui

H

H4TT

Huo

H

H4TU

Huo

H

H4TZ

Hu

H

H5PH

He

H

H5PT

Hu

H

H6IH

Hu

H

H6TH

Hai

I

I2PZ

jI

I

I3ZH

jI

I

I3ZI

sI

I

I4HI

yI~𧘇

I

I4HZ

jI

I

I4PH

jI

𧘇

I

I4PI

yI-衣

I

I4PJ

yI~𧘇

I

I4TZ

shI

I

I5TY

y I

I

I6PZ

jI-

I

I6TT

jI-脊

J

J2PY

J iu

J

J3IY

Jing

J

J3PZ

Jiu

J

J4HH

Jing

J

J4IZ

Jian

J

J4PP

Jin

J

J5HI

Jian

J

J5HJ

Jv

/金

J

J5PH

Jin

𢀖

J

J5ZT

Jing-径

J

J6PI

Jiu

J

J7HK

Jv

K

K2HZ

Kao

K

K2ZH

Kou~口

K

K3IZ

Kou

K

K4PH

Kou~口

K

K4ZI

Kuai-快

K

K5ZP

Kuang

L

L2ZI

Le

L

L2ZP

Li

L

L2ZU

L-形

L

L3TZ

L-形

L

L4HI

Lao

L

L5HP

Long

L

L5HZ

Lian-练

L

L5IZ

Lv~吕

L

L5TH

Li

L

L6HH

Lei

L

L7PI

Luan

L

L7TH

Lu-鹿

M

M2IY

Men~门

M

M2TZ

Mi

M

M2ZY

Mie

𠂎

M

M3PI

Mao-卯

M

M3PJ

Mao~𠂎

/門

M

M3TI

Men

M

M4PH

Mao

𠃜

M

M4ZI

Mei-眉

M

M5IZ

Min

M

M5ZH

Ming

M

M6TT

Mi

M

M9HP

Mian

M

M9IZ

Min

N

N2ZP

Nai

N

N2ZT

Niu-1扭

N

N2IH

Niu~厶

N

N3HZ

Niu~牛

N

N3ZP

Nv

/糹

N

N3ZY

Niu-Si

N

N3ZZ

Niu-2扭

N

N4PH

Niu

/

N

N4PY

Niao

N

N4ZR

Na

O

O2HI

10

𠂇

O

O2HP

10

O

O3HK

20

O

O3HL

20

O

O3HQ

20

廿

O

O4HI

20

O

O4HJ

20

O

O4HR

30

O

O5HS

40

P

P3TT

Pan

P

P4PH

Pian

P

P4ZI

Pan

P

P5ZP

Pi

Q

Q2HZ

Qi

Q

Q3PH

Qian

/犬

Q

Q3PX

Quan

Q

Q4PI

Qi

Q

Q4PZ

Qian

Q

Q5IZ

Qie

Q

Q5PJ

Qiu

Q

Q6HI

Qi-其

R

R2PH

Ren

R

R2PI

Ren

𠂉

R

R2PJ

Ren~人

R

R2PW

Ru

R

R3PV

Ren

R

R4IY

Ri

R

R4IZ

Ri~日

S

S2IW

Shan-山

S

S3IX

Shan

S

S3PZ

Shi

/水

S

S3TT

Sui

S

S3ZH

Shi

/

S

S3ZI

Shan~山

S

S4PJ

Shi

S

S5HP

Shi

S

S5IZ

Shi

S

S5ST

Sui

𧰨

S

S6PY

Shi-豕

S

S7IT

Shu-鼠

S

S7PI

Shen

T

T2TH

Tou

/手

T

T3HI

Ti-提手

T

T5IH

Tu

T

T5IZ

Tian

U

U3HI

tU

U

U3HJ

tU~土

U

U4HH

tU~土

U

U4HM

mU

𠀎

U

U5HI

tU~土

U

U5IZ

mU

V

V2HZ

V(yu)-与

V

V3HH

V(yu)

V

V3IZ

Ve~月

V

V4PY

Ve

V

V4PZ

Ve~月

V

N2ZU

V(yu)-予

V

V4ZT

V(yu)

V

V5HJ

Ve

V

V8HI

V(yu)

W

W2ZZ

Wei~囗

W

W3HZ

Wan

W

W3TH

Wang

W

W3WZ

Wei

W

W4HH

Wang

W

W4HI

Wei

W

W4IH

Wa-凹

W

W4PW

Wu

/

W

W4TP

Wei

W

W5HJ

Wei

W

W5HP

Wu

W

W7PH

Wo

X

X3IT

Xiao

X

X3IU

Xiao~小

X

X3PY

Xi

/心

X

X3TT

Xin

X

X3ZT

Xi

X

X3ZZ

Xiang

X

X4IT

Xin

X

X4PZ

Xi~夕

西/覀

X

X6HI

Xi

X

X5ZH

Xia~

𦈢

X

X6PH

Xie

/言

Y

Y2TG

Yan

Y

Y2ZU

You

Y

Y3HP

You-尤

Y

Y3HZ

Yi

Y

Y3ZI

Ye

Y

Y4IT

Yi

Y

Y5II

Ye

Y

Y5PI

Yin

Y

Y6IZ

Ye

Y

Y6PP

Yin-殷

Y

Y6TT

Yang

Y

Y7HI

You

Z

Z3HP

Zhang

Z

Z3TZ

Zhi

Z

Z3ZI

Zi

Z

Z4IH

Zhi

Z

Z4II

Zhi-止

𠂔

Z

Z4PZ

Zi

Z

Z6PH

Zu

Z

Z6PI

Zhi-制

Z

Z6PJ

Zi

Z

Z6PP

Zhou

Z

Z6PU

Zhao

Z

Z6TP

Zhou

Z

Z7PT

Zhi

Z

Z8PK

Zhui

 

 

5.0 基元编码说明

1. 上表中某些基元的编码须加以说明:

 a. 英文字母O与数字0相似,而基元 十、卄、卅、卌…可以数字显示10203040…因此这些基元可以英文字母[O]作代码;而且圆圈[O]与数字[]都是表示完整之意。

 b. 把笔数不同而基本讯息相同的基元,如 /馬、长/長、钅/金、门/門、纟/糹、//犬、氵/水、/手、为/為、/心、西/覀、/言…,编为同码,或邻近码,可使这些基元所组成的汉字排序在邻次,而便于记忆或检索。

c. 基元[](-缺一)亦是[]()的部件;基元[]除凹外,亦用作[]()的部件;基元[][]只作为[]的部件,基元丱只作为聯、關的部件…。如果未来简繁统合,或汉字优化,这些基元都可弃用或更新( 改作凹)。相信优化并统合的通用字,应可使基元数量大为降低

 

 2. 基元编码只用于区别300个基元本身的顺序,不用作汉字输入。样本7500个的全字形排序,亦不必先输入码号后再行排序;而是使用一个程式,只输入己排好序的300个基元,即可将7500汉字,照基元序自动排列。基元序可以[中文基元]表示,亦可以英文字母及数字码显示,二者互相对照映射,有利于阅览记忆。例如:

 

漢字

中文基元

英数码

二儿

2E

車巛田

J3T

卜口乚

BK1

刀田一羊

DT1Y

 

 

6.0 通用字(7500)的排序

310个基元中只约有250作字首,其余的基元都在字中或字尾。兹以部首[]为例,显示汉字以基元排序的概略。

 

汉字

中文基元

英数码

J

車一巛工

J13G

車一儿

J1E

車一口田

J1KT

車一冂人人

J1MRR

車一厶土

J1NU

車一曰

J1RNC

車丿大口冂口

J1AKMK

車丿夫

J1F

車乚

J1

車巛田

J3T

車大

JA

車宀主口

JBUK

車厂

JCE

𡗗丿大

JC1A

車丁口

JDK

車刀丶

JD1

車刀口

JDK

車夂口

JDK

車耳乚

JE1

車甫

JF

車干

JG

車乎

JH

車虍田皿

JHTM

車九

JJ

車斤

JJ

車斤金

JJJ

車斤日

JJR

車斤土

JJU

車斤木

JJU

車車車

JJJ

車口八

JKA

車口耳

JKE

車辶

JL

匕匕

JLBB

車冂兰亡

JM3W

車米夕

JMXN

車幺白幺木

JNBNU

車十口

JOK

車欠

JQ

車人彡

JR3

車入王

JRW

冂卄

JRMO

月刂

JRVD

車日匕匕

JRBB

車曰皿

JRM

車凵几又幺小

JSIYNX

車凵几又手

JSIYT

車凵几又土

JSIYU

車尸⺾

JSOI

車亠八乂

JTAA

車亠口小

JTKX

車亠厶月𠂉

JTNVRA

車土口𧘇

JUKI

車囗十

JWO

車又又又又

JYYYY

車弋工

JYG

車舟

JZ

 

上表中汉字基元的顺序,是由己排序的基元直接输入后得出,并非先编英数码后再行间接排序。英数码只用作参考对照。请注意第2基元之后各字的顺序:一、丿、乚、巛、大、宀…,与基元次序完全符合,也与英数码:1113AB…一一对应。

 

经此实验,可知汉字的基元排序是可行的。而且中文基元的次序,取决于汉字的音读、笔数、笔划性质等固有特性,并非依附于英数码。事实上英数码也是由程式依中文基元次序,自动列出,用它来显示基元序性,有助阅览观照而已。

 

样本7515字的<基元排序全表>,请参见笔者网页:http://chinese.exponode.com/3_6.htm

<基元排序表>中所用的代字,在此说明一下:壬=(2)

 

在排序实验之前,笔者误以为:中文基元须完全依赖基元编码后,才可依码排序。实验之后才发现汉字固有的特性(音读、笔数…)亦可具有序性,以前未加充分发挥利用而已。另一方面,因我们习于[英数码排序],总觉得[汉字基元排序]陌生些,因此笔者把中、英二式并列在一起,以便对照。

 

 

7.0 利用基元排序来检索汉字

这可能是个有趣的值得讨论的课题。如何应用基元排序来检字呢?

 

1. 首先,正如部首检字法一样,应在<字集>之首页,设定目录;把 [字首基元],依基元序排列。基元虽有310个,[字首基元]却只有250个,(其它基元,都位于字中或字尾)。熟习之后,应不难记忆。

目录内列出的项目包括:字首基元、基元代码,基元所在的页次或行号,类如下表所示。

 

基元,,行号

1-001

2-172

3-215

4-268

A-376

A-408

A-462

B-493

B-518

B-538

B-582

B-708

B-744

B-775

C-889

C-932

C-998

D-1153

D-1294

E-1322

F-1416

广G-1547

G-1642

H-1672

H-1786

I-1902

I-1943

J-2019

J-057

J-2331

K-2389

L-2861

M-2976

N-3117

N-3238

O-3422

O-3482

Q-3959

R-4081

R-4444

S-4566

S-4666

S-4712

S-5230

T-5445

U-5781

U-5994

Q-6304

V-6377

V-6536

W-6628

X-6819

Y-6992

Z-7316

 

2. 举例说明检字方法 ---首例为部首[],共有446字,列之如次表:[字首基元 ]的页次,可自目录查得。<字集>每页顶上再加注汉字[2个基元]代码及基元(下表第4)

 

基元序

英數碼序

加注

氵一

S13K

1,一

氵一大

S1AX

 

氵一巾

S1J

 

氵一丂

S1K

 

氵一幺幺土

S1NNU

 

氵一日一

S1R1

 

氵一凵乚

S1S1

 

涿

氵一𧰨

S1S1

 

氵一木

S1U

 

氵一匕匕

S1VVLBB

 

氵一囗卄日

S1WOR

 

氵丿

S11X

1,丿

氵丿大

S1A

 

氵丿大金

S1AJ

 

氵丿冂米大

S1MMA

 

氵丿皿

S1M

 

氵丿米丨

S1M1

 

氵丿米田

S1MT

1,丿

氵丿土儿

S1UE

 

氵丿土口

S1UK

 

氵丿未

S1W

 

氵丿之

S1Z

 

氵丿止廴

S1ZL

 

氵丶艮

S1G

1,

氵丶水

S1S

 

氵丶王

S1W

 

S1O

 

𠃌

S11

 

氵乛耳𠂉

S1ERA

 

氵乛水凵

S1SS

 

氵二儿

S2E

2,儿

氵二厶

S2N

 

氵丅𠃌

S211

 

氵〢𠂉丶见

S2R1J

 

氵〢𠂉丶皿

S2R1M

 

氵リ一巾

S21J

 

氵壬曰土

S2RU

 

𠂆

S2I

 

一儿

S31E

 

氵兰八皿

S3AM

3,䒑

氵兰幺幺

S3NN

 

氵兰廾

S3O

 

氵兰

S3SV

 

氵兰月刂

S3VD

 

氵兰业日

S3YR

 

氵巛田

S3T

 

氵四

S4

 

氵罒一口𧘇

S41KI

 

氵八刀

SAD

A,八

氵八金

SAJ

 

氵八厶习习

SANXX

 

氵八人口

SARK

 

氵丷

SA3

 

氵丷弓

SAG2

 

氵乂𠂇

SAOJ

 

氵乂𠂇

SAOV

 

氵乂凵

SAS

 

氵大丶

SA1

A,大

氵大兰

SA3

 

氵大丷日小

SAARX

 

氵大曰乚

SAR1

 

氵爫丿士

SA1U

 

氵爫彐亅

SAF1

 

氵爫干又

SAGY

 

氵爫臼

SAJ

 

氵爫幺大

SANA

 

氵爫子

SAZ

 

氵卜一小又

SB1XY

B,卜

氵卜贝

SBB

 

氵卜口

SBK

 

氵卜日十

SBRO

 

氵卜尸

SBS

 

氵卜囗𠂭

SBWA

 

氵卜夕又非一

SBXYF1

 

氵勹巳

SBI

B,

氵勹口

SBK

 

氵勹厶

SBN

 

氵勹𠂉十凵

SBROS

 

氵勹日

SBR

 

氵匕匕

SBB

 

氵匕匕白

SBBB

 

氵宀一日一

SB1R1

B,

氵宀一囗十八

SB1WOA

 

氵宀一

SB1Z

 

氵宀二几

SB2I

 

氵宀二小

SB2X

 

氵宀八人口

SBARK

 

氵宀匕

SBB

B,

氵宀丁

SBD

 

氵宀臼

SBJVH

 

氵宀

SBL

 

氵宀立十

SBLO

 

氵宀丘八

SBQA

 

氵宀曰丨

SBR1

 

氵贝刂

SBD

B,

氵贝戋

SBJ

 

氵白

SB

 

氵白方𠂉

SBFRA

 

氵白王

SBW

 

氵厂一

SC1IC

C,厂

氵厂白小

SCBX

 

氵厂力

SCL

 

氵厂土土

SCUU

 

𡗗丿大

SC1A

 

𡗗

SCH

 

氵虫

SC

 

氵丁

SD

 

氵丁口

SDK

 

氵刀丶米

SD1M

D,

氵刀丶木

SD1U

 

氵刀丶木

SD1U

 

氵刀丶心

SD1X

 

氵刀丶止

SD1Z

 

氵刀厂八言

SDCAY

 

氵刀口

SDK

 

氵刀口儿

SDKE

 

氵刀冂土刀牛

SDMUDN

 

氵刀冖大

SDMA

 

氵刀田一

SDT1

 

氵夂口

SDK

D,

氵夂

SDN

 

氵夂木

SDU

 

氵歹刂

SDD

 

沿

氵儿口

SEK

 

氵阝力

SEL

E,

氵阝

SERU

 

SE

 

氵耳

SE

 

氵耳又又

SEYY

 

氵匚乂

SFA

 

氵彐

SF3

F,

氵彐寸

SFC

 

氵彐工口寸

SFGKC

 

氵彐冖又

SFMY

 

氵彐氺

SFS

 

氵丰

SF

F,丰

氵丰寸

SFC

 

氵丰刀巴

SFDA

 

氵丰刀幺小

SFDNX

 

氵丰丰凵一口兰

SFFS1K3

 

氵丰丰凵一口兰土厶皿

SFFS1K3UNM

 

氵夫夫日

SFFR

 

氵方人冫

SFRB

F,方

氵方𠂉

SFR1Z

 

氵方𠂉

SFRZ

 

氵方𠂉

SFRZ

 

氵发

SF

 

氵癶一口兰

SF1K3

 

氵甫

SF

F,甫

氵甫寸

SFC

 

氵干

SG

 

氵工

SG

 

鸿

氵工

SGN1

 

氵广兰彐

SG3F4

G,广

氵广彐丨口

SGF1K

 

氵广廿又

SGOY

 

氵广曰土

SGRU

 

氵弓

SG2

G,弓

氵弓冫弓冫

SGBGB

 

氵弓长

SGC

 

氵弓長

SGC

 

氵弓刀小

SGDX

 

氵弓厶

SGN

 

氵甘

SG

 

SGV

 

SGI

 

氵火火

SHH

 

氵户

SH

 

氵禾火

SHH

H,禾

氵禾小月

SHXV

 

氵虍乎

SHH

 

氵虍心

SHX

 

氵几丶

SI1

 

氵几又

SIY

 

氵巳

SI

I,巳

氵巳巳龷八

SIIOA

 

氵及

SI

 

氵九丶

SJ1

 

氵九木

SJU

 

氵斤

SJ

 

氵戋

SJ

 

氵巨木

SJU

 

氵金

SJ

J,金

𢀖

SJ

 

氵臼丨又

SJ1Y

 

氵車斤

SJJ

 

氵車辶

SJL

 

氵口丨

SK1

K,口

氵口丄贝

SK2B

 

氵口巴

SKA

 

氵口贝

SKB

 

氵口口丨心

SKK1X

 

氵口口口木

SKKKU

 

氵口冂人

SKMR

K,口

氵口曰乚

SKR1

 

氵口月

SKV

 

氵口止夂口

SKZDK

 

氵口

SKZ

 

氵耂日

SLR

 

氵龙

SL

 

氵立

SL

L,立

氵立口

SLK

 

氵立日十

SLRO

 

氵立曰土

SLRU

 

匕匕

SLBB

 

匕匕灬

SLBBH

 

氵冂一口

SM1K

 

氵冂人

SMR

 

氵冖八工口

SMAGK

M,

氵冖八木

SMAU

 

氵冖大

SMA

 

氵冖儿

SME

 

氵冖

SME

 

氵冖𧘇

SMI

 

氵冖車

SMJ

 

氵冖日亠八

SMRTA

 

氵冖

SMV1

 

𠂎

SME

 

刀田

SMDT

 

氵门日

SMR

M,

氵门木

SMU4

 

氵门王

SMW

 

𠃜

SMU

 

氵民

SM

 

氵米

SM

 

氵米女

SMN

 

氵米田龷八

SMTOA

 

氵面

SM

 

氵厶八夂

SNAD

N,

氵厶大彡

SNA3

 

氵厶口

SNK

 

氵厶𠂉

SNRA

 

龴冂

SVM3

 

龴冂

SVM3

 

氵女

SN

N,女

氵女口

SNK

 

氵纟隹

SNZ

 

氵糹言糹木

SNYNU

 

氵十

SO

O,十

氵十乛冫大

SO1BA

 

氵十彐女

SOFN

 

氵十口

SOK

 

氵十口月

SOKV

 

氵十冖子

SOMZ

 

氵十冖子力

SOMZL

 

氵十日十人习习

SORORXX

 

氵十日十月

SOROV

 

氵十目一八

SOU1A

 

𠂇

SOV

 

氵艸一冂人人

SO1MRR

O,艸

氵艸一冂人人心

SO1MRRX

 

氵艸彐小丿丨

SOFX11

 

氵艸口口隹

SOKKZ

 

氵艸冖二𧰨

SOM2S

 

氵艸冖力

SOML

 

氵艸冖幺小

SOMNX

 

氵艸冖王丶

SOMW1

O,艸

氵艸犬廾

SOQO

 

氵艸日大

SORA

 

氵艸隹又

SOZY

 

氵廿

SO1

 

氵廿㇄木

SO1U

 

龷八

SOA

O,

龷八巳

SOAI

 

龷田八

SOTA

 

潵 

龷月𠂉

SOVRA

 

氵卅冖巾

SOMJ

 

氵卅冖巾

SOMJ

 

氵片一爿

SP1P

 

氵皮

SP

P,皮

氵皮女

SPN

 

氵七刀

SQD

 

氵七木

SQU

 

氵千口

SQK

 

氵犭大丁口

SQADK

 

氵气

SQ

 

氵欠皿

SQM

Q,欠

氵且

SQ

 

氵丘八

SQA

 

SQA

 

SQA1

 

八斤

SQAJ

 

氵人二厶

SR2N

R,人

氵人匕

SRB

 

氵人

SRE

 

氵亻丨夂月

SR1DV

 

氵亻犬

SRQ

 

氵亻业兰夫

SRY3F

 

𠂉

SR1

 

𠂉亠丶

SRWT1

 

ツ一𠂉

SR31RA

 

SRK

R,

口口口冂卄

SRKKKMO

 

SRV

 

SRU

 

木土

SRUU

 

木又

SRUY

 

月刂

SRVD

 

氵日

SR

R,日

氵日一大

SR1A

 

氵日一勹

SR1B2

 

氵日一勹

SR1B2H

 

氵日一勹

SR1B2M

 

氵日一

SR1Z

 

氵日罒又

SR4Y

 

氵日勹人

SRBR1

 

氵日匕匕

SRBB

 

氵日八氺

SROAS

R,日

氵日亠口小丆贝

SRTKX2B

 

氵日土

SRU

 

氵日习习

SRXX

 

湿

氵日业

SRY

 

氵曰

SR

 

氵曰皿

SRM

 

氵曰土

SRU

 

氵山

SS

S,山

氵山儿𠂉

SSERA

 

氵山而

SSE

 

氵山

SSR1

 

氵尸一厶土

SS1NU

S,尸

氵尸ㄟ冫

SS1B

 

氵尸匕

SSB

 

氵尸巾刂

SSJD

 

氵尸口立十

SSKLO

 

氵尸雨

SSV

 

氵尸子子子

SSZZZ

 

氵屮一虫

SS1C

 

氵氏丶

SS1

 

氵亠

ST4G

T,

氵亠

ST4U

 

氵亠八乂

STAA

 

氵亠八口𧘇

STAKI

 

氵亠丷厂

STAC

 

氵亠丷冂十口

STAMOK

 

氵亠丷冖方

STAMF

 

氵亠乂

STA

 

氵亠乂

STA2

 

氵亠乂刂

STAD

 

氵亠乂凵冂

STASMN

 

氵亠卜

STB

T,

氵亠几

STI

 

氵亠口冖一𧰨

STKM1S

 

氵亠口子

STKZ

 

氵亠厶

STN3

 

氵亠厶川金

STNCJ

 

氵亠厶月𠂉

STNVRA

 

氵亠幺

STN

 

氵亠人人十

STRRO

 

氵亠亻

STRX

 

氵亠囗口日一

STWKR1

 

氵扌斤

STJ

T,

氵手一丰

ST1F

 

氵田幺小

STNX

 

氵田丌

STP

 

氵田月

STV

 

氵土厶

SUN

U,土

氵土厶皿

SUNM

 

氵土土

SUU

 

氵士口

SUK

 

氵士口兰彡

SUK33

 

氵士口兰寸

SUK3C

 

氵主贝

SUB

 

氵主月

SUV

 

氵木

SU

U,木

氵木丶

SU1

 

氵木兰

SU3

 

氵木八厶

SUAN

 

氵木斤

SUJ

 

氵木口

SUK

 

氵木口刀贝

SUKDB

 

氵木口欠

SUKQ

U,木

氵木人氺

SURS

 

氵木日一

SUR1

 

氵木木

SUU

 

氵木木月

SUUV

 

氵木目

SUU

 

氵目

SU

U,目

氵目犬

SUQ

 

氵目小丿

SUX1

 

氵目隹

SUZ

 

氵于

SV

 

氵月巴

SVA

 

氵予丿冂儿口

SV1MEK

 

氵予丆贝

SV2B

 

氵雨二厶

SV2N

V,雨

氵雨而

SVE

 

氵雨廿口十月

SVOKOV

 

氵亡口月女几丶

SWKVNI1

 

氵囗一𧰨

SW1S

W,囗

氵囗大

SWA

 

氵囗口

SWK

 

氵囗十

SWO

 

氵囗十口

SWOK

 

氵囗卄一口兰

SWO1K3

 

氵囗人

SWR

 

氵囗韦

SWW

 

氵王

SW

 

氵为

SW

 

氵未

SW

 

氵小一儿

SX1E

X,小

氵小丿

SX1

 

氵小丿刀田一

SX1DT1

 

氵小丿女

SX1N

 

氵小丿亠𧘇

SX1TI

 

氵小丿手

SX1T

 

氵小乂

SXA

 

氵小冂口

SXMK

 

氵小月

SXV

X,小

氵夕

SX

 

氵夕口

SXK

 

氵忄干口

SXGK

 

氵心

SX

 

氵心丿

SX1

 

氵习习隹

SXXZ

 

氵西

SX

X,西

氵西土

SXU

 

氵覀二小

SX2X

 

氵覀日十

SXRO

 

氵覀木

SXU

 

氵言𠂉

SYRO

 

氵又

SY

Y,又

氵又丶

SY1

 

氵又

SY3

 

氵又隹

SYZ

 

氵也

SY

 

氵曳

SY

 

氵羊

SY

Y,羊

氵羊丶水

SY1S

 

氵羊工

SYG

 

氵酉

SY

 

氵止

SZ

Z,止

氵止匕

SZB

 

氵止小

SZX

 

氵止小丆贝

SZX2B

 

氵竹彐

SZF3

 

氵竹毛

SZM

 

氵自

SZ

Z,自

氵自犬

SZQ

 

氵自田丌

SZTP

 

氵兆

SZ

 

氵州

SZ

 

氵隹

SZ

Z,隹

氵隹十

SZO

 

S

 

水日

SR

 

水水水

SSS

 

 

3. 再举基元[]为例,[]264字,在<字集>页面顶端,加注第2个基元及其代码(下表第4)

 

基元序

英数码序

加注

亻一

R13

1,一

亻一白

R1B

 

亻一冂人人

R1MRR

 

亻一厶土

R1NU

 

亻一厶土

R1NU

 

亻一厶土刂

R1NUD

 

亻一曰

R1RNC

 

使

亻一史

R1S

 

亻一氺丶

R1S1

 

亻一田一田一

R1T1T1

 

亻一

R1VV

 

亻一业丿

R1Y1

 

亻丨夂彡

R1D3

1,

亻丨夂刀田一

R1DDT1

 

亻丨夂月

R1DV

 

亻丨𠂉

R1RA

 

亻丨𠂉乂犬

R1RAQ

 

亻丨𠂉乂心

R1RAX

 

亻丨ユ𠂉

R1RA

 

亻丿大

R1A2

1,丿

亻丿夫

R1F

 

亻丿厶

R1N

 

亻丿幺小

R1NX

 

亻丿士

R1U

 

亻丿士贝

R1UB

 

亻丿士几

R1UI

 

亻丿士心

R1UX

 

亻丿囗乂八夂

R1WAAD

 

亻丶乂

R1A

 

亻丶王

R1W

 

亿

亻乙

R1

 

𠃌一口

R11K

 

亻二

R2

2,二

亻二女

R2N

 

亻丆月冖心夂

R2VMXD

 

R2E

 

亻三

R3

 

一儿

R31E

 

亻兰廾

R3O

 

亻罒一口𧘇

R41KI

 

亻罒糹隹

R4NZ

 

亻八刀

RAD

A,八

亻八人口

RARK

 

亻八月

RAV

 

亻丷

RA3

 

亻丷

RA4R

 

亻丷夫

RAFE

 

亻大一丂

RA1K

A,大

亻大兰

RA3

 

亻大丷日小

RAARX

 

亻大丁口

RADK

 

亻大曰乚

RAR1

 

亻瓦

RA

 

亻牙

RA

 

亻爫子

RAZ

 

亻乍

RA

 

亻卜

RB

B,卜

亻卜一小又

RB1XY

 

亻卜贝

RBB

 

亻卜口

RBK

 

亻卜日十

RBRO

 

亻勹丶心

RB21X

 

亻勹口

RBK

 

亻匕

RB

B,匕

亻匕丆贝

RB2B

 

亻匕匕

RBB

 

亻匕匕白

RBBB

 

亻匕贝

RBB

 

亻匕十

RBO

 

亻宀一

RB1

B,

亻宀一𧰨

RB1S

 

亻宀八工

RBAG

 

亻宀匕

RBB

 

亻宀

RBL

 

亻宀丘八

RBQA

 

亻不一

RB1

 

亻贝刂

RBD

 

亻白

RB

B,白

亻白丿十

RB1O

 

亻白

RBEN

 

亻寸

RC

 

亻长

RC

 

𡗗

RC3

 

𡗗

RCS

 

亻丁

RD

 

亻丁口

RDK

 

亻刀丶

RD1

D,刀

亻刀厂八言

RDCAY

 

亻刀口匕匕刀口

RDKBBDKE1

 

亻刀口𧰨

RDKS

 

亻刀小

RDX

 

亻刀小

RDX

 

亻刀小心

RDXX

 

亻夂冫

RDB

 

亻歹刂

RDD

 

亻耳

RE

 

亻耳阝

REE

 

亻匚乂

RFA

F,匚

亻匚日女

RFRN

 

亻彐丿

RF1

 

亻彐

RF3L

 

亻彐冖又

RFMY

 

亻丰寸

RFC

 

亻夫

RF

 

仿

亻方

RF

 

亻方𠂉

RFRA

 

亻甫寸

RFC

 

亻非

RF

 

亻广彐冂

RGFM3

G,广

亻广亻寸

RGRC

 

亻弓

RG2

 

亻戈

RG

 

亻戈牛

RGN

 

亻戈土

RGU

 

便

亻更

RG

 

亻火

RH

H,火

亻火火

RHH

 

亻户冂卄

RHMO

 

亻户隹

RHZ

 

亻禾刂

RHD

 

亻禾女

RHN

 

亻几

RI

I,几

亻巳巳龷八

RIIOA

 

亻旡旡日

RIIR

 

亻及

RI

 

亻九

RJ

 

亻臼儿

RJE

 

𠂉

RKRA

 

亻口一大

RK1A

K,口

亻口一大

RK1A

 

亻口丨

RK1

 

亻口

RK3

 

亻口口

RKK

 

亻口木

RKU

 

亻口木火

RKUH

 

亻口木土

RKUU

 

亻口

RKZ

 

亻力

RL

L,力

亻力口

RLK

 

亻耂匕

RLB

 

亻立

RL

 

亻立口

RLK

 

亻立曰土

RLRU

 

亻耒

RL

 

亻冂一口

RM1K

M,

亻冂

RM3

 

亻冂土口

RMUK

 

亻冖𧘇

RMI

 

亻门

RM

 

亻门月

RMV

 

亻米女

RMN

 

亻面

RM

 

亻乃

RN

 

亻厶八夂

RNAD

N,

亻厶牛

RNN

 

亻厶𠂉

RNRA

 

龴冂

RVM3

 

亻牛

RN

 

亻十

RO

O,十

亻十口

ROK

 

亻十口𠂉

ROKRA

 

亻十廾贝

ROOB

 

亻十目一

ROU1

 

亻十又

ROY

 

𠂇

ROG

 

𠂇

ROJ

 

𠂇

ROK

 

𠂇

ROV

 

亻艸勹口𠂉

ROBKRA

O,艸

亻艸𠂇

ROOK

 

亻廿口主

ROKU

 

龷丿冂

RO1M3X

 

龷八

ROA

 

龷日

ROR

 

亻千

RQ

 

亻犬

RQ

 

亻人二厶

RR2N

R,人

亻人

RR2

 

亻人匕

RRB

 

亻人

RRE

 

𠂉

RR1

 

𠂉

RRL

 

𠂉

RRO

 

𠂉亠丶

RRWT1

 

亻入王

RRW

 

ツ一

RR31

R,



RR4R

 

RRV

 

月刂

RRVD

 

亻日一

RR1

R,日

亻日勹人

RRBR1

 

亻日曰

RRR

 

亻曰丨

RR1

 

亻曰冂

RRMN

 

亻曰土

RRU

 

亻山

RS

 

亻山隹

RSZ

 

亻尸𠃌

RS1K

S,尸

亻尸口立十

RSKLO

 

亻尸十口

RSOK

 

亻尸屮凵

RSSS

 

亻氏丶

RS1

 

亻亠八乂

RTAA

T,

亻亠八乂𠂉

RTAARA

 

亻亠丷冖方

RTAMF

 

亻亠乂

RTA2

 

亻亠几

RTI

 

亻亠𧘇

RTI

 

亻亠口𧘇

RTKI

 

亻亠口冖丁

RTKMD

 

亻亠口小

RTKX

 

亻亠口小尢丶

RTKXY1

 

亻田

RT

T,田

亻田

RTI

 

亻田田田

RTTT

 

亻田心

RTX

 

亻土兰十

RU3O

U,土

亻土土

RUU

 

亻士

RU

 

亻士寸

RUC

 

亻士方𠂉

RUFRA

 

亻士口

RUK

 

亻士口兰口

RUK3K

 

亻主贝

RUB

 

亻主𧘇

RUI

 

亻主月

RUV

 

亻木

RU

U,木

亻木一

RU1

 

亻木

RUN1

 

亻目一八

RU1A

 

亻雨而

RVE

 

亻囗十丂

RWOK

 

亻韦

RW

 

亻为

RW

 

亻我

RW

 

亻小一巾

RX1J

X,小

亻小冂口

RXMK

 

亻小冖二厶

RXM2N

 

亻小冖口儿

RXMKE

 

亻小月

RXV

 

亻夕

RXNU

 

亻夕夕

RXX

 

亻习习人彡

RXXR3

 



RXKY

 

亻覀米

RXM

X,

亻覀木

RXU

 

亻覀目八

RXUA

 

亻言

RY

 

亻言耂日

RYLR

 

亻又隹

RYZ

 

亻尢丶

RY1

 

亻弋

RY

Y,弋

亻弋土灬

RY4UH

 

亻弋贝

RYB

 

亻弋山

RYS

 

亻弋亠𧘇

RYTI

 

亻也

RY

 

亻以

RY

 

亻业兰夫

RY3F

 

亻羊

RY

 

亻丈

RZ

Z,丈

亻子

RZ

 

亻兆

RZ

 

亻隹灬

RZH

 

 

4. 经过实验,归纳出以基元检字的原则如下:检字时只须分辨出一个汉字的首、次2 个基元就可,[字首基元]可自<字集>的目录取得页码,次(2)基元地址可自相关的页面顶端[注记]中取得。[字首基元]只有250个,在数量上与部首200多个相差不大,且[字首基元]有音读、笔数等的连系,可助记忆。

看来以基元检字是可行的,可先在一万字内的<字集>试行。重点还是如何判断一个汉字的基元组成,这就与标准基元的建立,以及识字教育中贯输一些基元的概念有关了。

基元检字法的优点是一步到位,不必经过计算笔数这个阶段。

部首检字法经过数百年的酝酿习用,才有今天的通行,且仍须 [音序][笔数序][难字表]为辅。要想推行[基元序检字],自非一朝一夕之功,但无疑的我们应该往这个方向发展。

 

8.0 讨论事项

 1. 码长

排序样本7515字的码长(即每字组成的基元数)统计如次:

码长

字数

10

3

9

9

8

28

7

84

6

328

5

964

4

2056

3

2571

2

1306

1

166

平均碼長為3.5,即每字平均由3.5個基元組成的。

 

通用字组成的统计中,每字最多含有10个基元(),共3 字;含有9 个基元()的共9字,显示它们是结构复杂的汉字:

基元组成

英数码

氵丰丰凵一口土厶

SFFS1K3UNM

𠂉十凵木冖𠂭凵匕

UROSUMASB3

自田丌十口冖口𠀎𧘇

ZTPOKMKKOI

刀田灬亠丷丨刀

DTHTA1D3K

金丿土儿丿土儿

J1UE1UEUA

口止丿土儿丿土

KZ1UE1UEB

𠂉亠丶𠂉

ORWT1RANX

十目一十目一十

OU1OU1OU1

𠂉亠丶𠂉乂刀

RWT1RADT1

氵弓丅八冂乂乂

SG2AMAAAA

丿土儿丿土

UZ1UE1UEB

言刀口匕匕刀口

YDKBBDKE1

 

部分字若使用简体,则码长可以减少

>

简体基元

码长减少

>

丰刀巴

10 > 4

>郁

𠂇月阝

10 > 3

>

刀田一

9 > 6

>

卜口

 9 > 3

>

弓尔

9 > 2

>

刀口

 9 > 5

 

这些结构复杂的汉字,在排序时,亦可省略近字尾的码(基元),例如自10码减至8码,对于基元顺序没有影响。而检字主要以首2码为主,因此省码之后对于检字也没有影响。

 

2. 基元概念是否有必要的讨论

基元类似一般所说的基础部件。因为汉字既是拼形文字,自应有拼形的基本单位,或中文字母,我之所以提出这个观念,主要动机有二:

 

1). 一般认为汉字缺少序性,难以排序,因为它是二维的。我想突破这个想法,化二维为一维,让它像英文字母那样排序。我之所以认为它是可行,因为汉字书写时有约定俗成的笔序,笔序可以笔划为单位,一笔一笔的算。笔序也可以以基元为单位,(例如明,先写[],后写[]),一个基元、一个基元的算。可见只要我们有合理的共认的基元,汉字应该是可以排序的。

 

2). 可以藉基元这个观念来分析汉字的字形结构,如我在前篇所做的那样。更重要的一点,我尝试用基元这个观念来作全字形排序以及检字,如本篇所做的。

 

另一方面,既然传统上有[][]的区别,独体为文,合体为字,表示[]是基本的,[]是繁衍的,那末[]是否就可相当于基元呢?虽然汉字因古今字形衍变,今天的[基元]并不等于古代的[],但基本观念还是相同的。

基元的组成是 成字、部首、以及没有含义的[组件]三者,成字及部首约200多个,有字义可说;组件约有100个,我在尝试给这些[组件]作合理的定位说明。不是在字义上的,而是在结构上作定位,让人容易记忆。

 

3. 写汉字如玩积木

住在美国加州的华裔教授兼书画家庄因先生,近日在世界日报上发表一篇 如何学写中国字的文章。其中有精譬的比谕:写汉字正似玩积木,搭造一屋、一桥,用不同的积木,完全跟工程建造一样。建筑的重点端在坚固,不要奢谈美观而忽略了重点。端正则美感自具。

文中所说 写汉字正似积木搭建工程,深有同感。搭建屋桥须按严谨的次序;那些形状不同的积木就像汉字的基础部件(基元),也要依照笔序,一个基元、一个基元的组合成字。

现代年轻学子,不注重汉字的书写练习,也缺少正确的汉字分析的部件教育。使我觉得我在此提倡基元排序的观念,或有必要。当然,本文只是一个实验报告,真正的基元内涵及其数量,尚待大家共同讨论及补充完善。

另一方面,如果教学写字时,书写的布局,能从基元(而非仅笔划)着眼,当会有利于汉字的基础部件的认识,那么汉字以基元排序的检字法,就更具可行性了。

 

 

9.0 综结

汉字研究大概有几个倾向或重点:一个偏重传统汉字,例如古代汉语研究等方面;一个偏重全盘改革,例如拼音、意音文字的探讨等。

另一个倾向是务实主义,主张立足于传统却不为传统束缚,优化汉字却不新创文字。不泥古、不标新。笔者即是在这样心态下,提出了基元的观念,并在本文尝试作排序及检字的实验。

 

虽然这项实验只有初步结果,且尚待完善;尤其有待大家的认同。但笔者相信,作为[拼形]文字的汉字,在未来优化之后,终将通行300多个规范的公认的基元,亦即中文字母,用于汉字的排序及检字。而与拉丁字母的拼音文字,并驾齐驱于未来世界语文界。

 

[本文完]