汉语文及汉拼自动分词的实验及应用
本文分为上、下二篇,上篇叙述“自动分词”程式的由来,下篇则举例说明自动分词的应用。
上篇:自动分词的实验
1.0 主题说明
这是拟定一个程式,使汉语文与汉语拼音(第二式)之间,相互转换。当输入一篇“不分词”的汉语文章,可输出“分词”拼写的汉拼(第二式);再把己分词的汉拼输入原程式,可得分词拼写的汉语文。例如,把孙中山<遗嘱>的首段输入下面程式---
http://go.infoblox.com/temp/zh/ch_phonics_word_conversion_wp2_pw1.php
余致力国民革命,凡四十年,其目的在求中国之自由平等。积四十年之经验,深知欲达到此目的,必须唤起民众及联合世界上以平等待我之民族,共同奋斗。
汉字转拼音后,便得分词拼写的汉拼:
u'v11 zhiyliy guovminv gevmimy ,fanv2
siy shivnianv ,qiv muydi zai qiuv Zhomguov zhi ziyiouv
pimvdemw 。ji5 siy shivnianv zhi jim-iany1 ,shenzhi
u'y5 davdaoy ciw muydi ,biyxu1 huanyqiw
minvzhomy jiv lianvhev shiyjiey shamy iw1 pimvdemw daiy1 uo zhi minvzuv ,gomytomv
fenydouy 。
再把此汉拼输入,即可转成分词的汉语文:
余 致力 国民 革命 ,凡 四十 年 ,其 目的 在 求 中国 之 自由 平等 。积 四十 年 之
经验 ,深知 欲 达到 此 目的 ,必须 唤起 民众 及 联合 世界 上 以 平等 待 我 之 民族 ,共同 奋斗 。
所谓汉拼第二式,主要是改变汉拼的标调方式:以专用字母 v、w、y标 第二、三、四声,置于音节之尾,第一声及轻声不标,详于下文说明。
2.0 实验的结果
1. 本实验证明汉语拼音须带声调,并分词拼写,方可解决汉拼的同音问题。以本程式 <内存词库>为例,多音节词共约40,000个,其中三音节以上的词语,并无同音现象。二音节词的同音词共有1968个,占比5%,其中绝大部分只有1 组同音(如下表)。故只须以数码1,2,3…置于词尾,以区别之。
同音词 |
个数 |
占比(%) |
1组同音 |
1794 |
4.49 |
2组同音 |
146 |
0.37 |
3/4组同音 |
28 |
0.07 |
2. 本程式虽可把汉语文章自动分词,但我无意在此倡导中文的“分词连写”。我只是把它当作搜集新词汇的工具。因词汇随着社会发展而日新月异,许多现代文章的新词,可藉此程式汇集后,放入<内存词库>中。现有词库内涵,约八成来自<现代汉语常用词表>,二成则是自网上各种各式的文章中搜集而组成的。此项工作,目前仍在继续进行中。
3. 本程式尚非完善,有时会出现错配,例如输入“军事实力”,正确的分词应为“军事 实力”
但有时错作“军 事实 力”。此因汉字作为“词素”,十分活泼,一个字可组配成多种词语。一有错配,就须把 <内存词库> 的词汇顺序更正。
4.因词库容量有限,目前只收简体词汇。繁体文章须先转成简体后,再行输入,又最好输入的是现代文章,因内存词库除成语外,大多采录现代词汇。
3.0 汉拼第二式说明
我拟定的汉拼第二式是这样的:
1.改变汉拼的标调方式:以专用字母 v、w、y标 第二、三、四声,置于音节之尾,第一声及轻声不标;[ng]省作[m],[ü]改为[u'],例如 ---
兵强马壮 - bīng qiáng mǎ zhuàng → bim qiamv maw zhuamy
[w,y]专作标调符号之后,以 [u,i] 取代它们原有的功能 ---
洋洋得意- yáng yáng dé yì → iamv iamv dev iy
无限风光- wú
xiàn fēng guāng → uv xiany
fem guam
把原有标调字母的帽子脱下来,不仅有利于在标准键盘上打字,而且[w,y] 在汉拼中的隔音作用,仍保持不变,只是把它们的位置从字头(前缀)换成字尾(后缀)而已。
汉拼中的[ü]标调时,常须戴二顶帽子,看起来有些别扭;[ü]改作[u'],就可在键盘上打出:
红男绿女- hóng nán lǜ nǚ → homv nanv lu'y nu'w
[v,w,y] 专作标调符号的另一个好处:可在键盘上以简单“取代” 方式,把有声调的词语,转换成无声调的:亦即只须消去v,w,y就可,例如:
兵强马壮 - bīng qiáng mǎ zhuàng → bim qiamv maw zhuamy → bim qiam ma zhuam
4.0. 汉拼的词化(多音节化):
以前例来说,适当的表达方式是“分词拼写”---
兵强马壮 → bimqiamv-mawzhuamy
洋洋得意 → ianvianv-deviy
无限风光 → uvxiany-femguam
请注意,单音节词化成双(多)音节词时,声调符号
v,w,y有隔音作用。两个双音节词拼写成四音
节的成语时,另加隔音符号 [-]。
汉拼的词化,是个繁复的工作,不能依赖人工操作,而且词语日新月异,需要建立庞大的词料
库,并须不断的更新补充。因此需籍助于计算机,自动操作。
汉拼的词化,又可作为“汉语文词化”的先锋,亦可藉以从输入现代文章中,搜集新词汇,一如本实验所作者。至于汉语文须否分词拼写,则见仁见见,个人认为一般应用无此需要。但如有完善的自动分词的软件,则在对外教材或儿童读物,以分词拼写的方式印刷,也许有利于教学,并使初学汉字的人,早日认识汉语词汇。
5.0 个人对“拼音汉语”的看法
近年来在本坛所见的“拼音汉语”方案,大多以汉拼为本,加上哑音(辨义)字母以分化同音而得。其结果给人的印象似乎只是给汉字“编码”,难以丢掉拐杖(汉字)而独立自行。但大家似乎也有共识:传统汉字必须维护,拉丁化汉语只是它的另一式,便于某一场合应用而己。拼音汉语可行性虽低,但仍值得讨论。以下是个人对此的看法。
首先,拼音汉语不能放弃声调符号,没有声调的音节只有400个,加上声调后就有1200多个音节,等于增加三倍的字形差别度;而且汉拼声调所代表的信息,已经约定俗成,不用它很可惜。问题在于现行声调符号是字母头上“加帽”方式,不便在标准键盘上打出,有待改进罢了。
其次,汉语拼音必须“词化”,也就是以分词拼写(多音节)的方式来表达。这样做,依笔者实验,就可解决大部分的同音问题。
个人认为拼音汉语的主要功能是作为学习汉字的初阶,儿童或外国人学习中国语文,较为有效的步骤可能是:
汉语拼音 → 拼音 (拉丁)汉语 → 汉语 / 汉字
学生在学习拼音汉语时,尚无传统汉字的知识,因此,个人认为设计拼音汉语的原则,不宜完全植基于汉字的字义,而应着重于汉语的语音,否则便成为不折不扣的汉字“编码”了。
个人又发现,即使能解决同音问题,拼音汉语的可行性仍是不高,此因文字“尚形”原则,形似的词语太多,辨认的效率很差,设计者宜从这方面去破解。
6.0 检讨及结语
1.第二式汉拼与原式汉拼最大不同之处,除了使用专用字母 v,w,y标调之外,便是以[m]代[ng]。在400个音节中,共有68个音节尾缀[ng],被[m]取代,占比17%。这也表示这是有效的省码方式。至于使用[m]的原因,一来 [m] 与 [ng]都是鼻音 (前者双唇,后者舌根);二来古汉语及方言都有尾音[m],觉得比用其它字母合适些。至于 [y,w.ü]被 [i,u,u’]取代,影响的音节只约20个,详见文末 附录2 <汉语第二式 简明音节表>。
2. 第二式拼音虽有优点,但也有缺点。现行汉拼采用字母戴帽方式,基本上不占空间;而新式拼音则增加了音节长度。就7000通用字言,估计不标调的阴平,占比24%,音节长度不变;其它三个声调都要增加一个标调的字母长度。因此,在单字组构多音节词时,就要尽可能的省略声调标记。本案参考“正词法”,拟定了省略声调的原则,详见下文附录 1。
3. 本式拼音逐步改进,运用成熟之后,可否作为<汉语第二式>使用?在目前我不作此想,也认为不可行。因为汉拼第二式,仍然没有解决“形似’问题。由于“文字尚形”特性(目治),要拉开拼音文字的相似度,实非易事。因此目前我只想把它当作搜集“新”词汇,以及比较古今词汇等的工具,详见本文下篇:<自动分词的应用>。
附录1
声调字母的省略
汉字组词时,声调的省略,如不碍及词意,有助于缩短词长,但有隔音作用时不省。其原则如下:
1. 译音的外来语,原则上不加声调,或只在最后音节标记声调:。
例- 阿拉伯数码Alabo-shuymaw
2. 双音节叠音词,可省略其中一个,大都省前音节:
例- 鬼鬼祟祟guiwguiw-suiysuiy → guiguiw-suisuiy
但有的声调用作隔音的,则不省:
例- 斯斯文文sisi-uenvuenv (其中v用作隔音符号,不省)。
3. 构词后缀4个- 地di、着zhe、儿er、子zi,常读轻声,不标调。
4. 常用词省调的有如下10个: 你ni、我uo、在zai、是shi、有iuw(iouw)、又iuy(iouy) 、
的di(diy)、不bu、个ge、水 shui 。
附录2- 汉语第二式 简明音节表 399
m=ng u'=ü w,y移作标调用;表中 蓝色的音节是更改的。 [表略]
|
|
|
|
|
e |
|
en |
|
er |
|
|
3 |
a |
ai |
an |
am |
ao |
|
|
|
|
|
|
|
5 |
ba |
bai |
ban |
bam |
bao |
|
bei |
ben |
bem |
|
|
|
8 |
pa |
pai |
pan |
pam |
pao |
|
|
pen |
pem |
|
|
|
8 |
ma |
mai |
man |
mam |
mao |
me |
mei |
men |
mem |
|
|
|
9 |
fa |
|
fan |
fam |
|
|
fei |
fen |
fem |
|
|
|
6 |
da |
dai |
dan |
dam |
dao |
de |
dei |
|
dem |
|
|
|
8 |
ta |
tai |
tan |
tam |
tao |
te |
|
|
tem |
|
|
|
7 |
na |
nai |
nan |
nam |
nao |
ne |
nei |
nen |
nem |
|
|
|
9 |
la |
lai |
lan |
lam |
lao |
le |
lei |
|
lem |
|
|
|
8 |
ga |
gai |
gan |
gam |
gao |
ge |
gei |
gen |
gem |
|
|
|
9 |
ka |
kai |
|
kam |
kao |
ke |
|
ken |
kem |
|
|
|
8 |
ha |
hai |
han |
ham |
hao |
he |
hei |
hen |
hem |
|
|
|
9 |
zha |
zhai |
zhan |
zham |
zhao |
zhe |
zhei |
zhen |
zhem |
|
|
zhi |
10 |
cha |
chai |
chan |
cham |
chao |
che |
|
chen |
chem |
|
|
chi |
9 |
sha |
shai |
shan |
sham |
shao |
she |
shei |
shen |
shem |
|
|
shi |
10 |
|
|
ran |
ram |
rao |
re |
|
ren |
rem |
|
|
ri |
7 |
za |
zai |
zan |
zam |
zao |
ze |
zei |
zen |
zem |
|
|
zi |
10 |
ca |
cai |
can |
cam |
cao |
ce |
|
|
cem |
|
|
ci |
8 |
sa |
sai |
san |
sam |
sao |
se |
|
sen |
sem |
|
|
si |
|
i |
ia |
ian |
iam |
iao |
ie |
|
in |
im |
iom |
iou |
|
10 |
bi |
|
bian |
|
biao |
bie |
|
bin |
bim |
|
|
|
6 |
pi |
|
pian |
|
piao |
pie |
|
pin |
pim |
|
|
|
6 |
mi |
|
mian |
|
miao |
mie |
|
min |
mim |
|
miu |
|
7 |
di |
|
dian |
|
diao |
die |
|
|
dim |
|
diu |
|
6 |
ti |
|
tian |
|
tiao |
tie |
|
|
tim |
|
|
|
5 |
ni |
|
nian |
niam |
niao |
nie |
|
nin |
nim |
|
niu |
|
8 |
li |
lia |
lian |
liam |
liao |
lie |
|
lin |
lim |
|
liu |
|
9 |
ji |
jia |
jian |
jiam |
jiao |
jie |
|
jin |
jim |
jiom |
jiu |
|
10 |
qi |
qia |
qian |
qiam |
qiao |
qie |
|
qin |
qim |
qiom |
qiu |
|
10 |
xi |
xia |
xian |
xiam |
xiao |
xie |
|
xin |
xim |
xiom |
xiu |
|
10 |
o |
|
ou |
u |
ua |
uai |
uan |
uam |
uei |
uen |
uem |
uo |
11 |
bo |
|
|
bu |
|
|
|
|
|
|
|
|
2 |
po |
|
pou |
pu |
|
|
|
|
|
|
|
|
3 |
mo |
|
mou |
mu |
|
|
|
|
|
|
|
|
3 |
fo |
|
fou |
fu |
|
|
|
|
|
|
|
|
3 |
|
dom |
dou |
du |
|
|
duan |
|
dui |
dun |
|
duo |
7 |
|
tom |
tou |
tu |
|
|
tuan |
|
tui |
tun |
|
tuo |
7 |
|
nom |
|
nu |
|
|
nuan |
|
|
|
|
nu |
4 |
|
lom |
lou |
lu |
|
|
luan |
|
|
lun |
|
luo |
6 |
|
gom |
gou |
gu |
gua |
guai |
guan |
guam |
gui |
gun |
|
guo |
10 |
|
kom |
kou |
ku |
kua |
kuai |
kuan |
kuam |
kui |
kun |
|
kuo |
10 |
|
hom |
hou |
hu |
hua |
huai |
huan |
huam |
hui |
hun |
|
huo |
10 |
|
zhom |
zhou |
zhu |
zhua |
zhuai |
zhuan |
zhuam |
zhui |
zhun |
|
zhuo |
10 |
|
chom |
chou |
chu |
|
chuai |
chuan |
chuam |
chui |
chun |
|
chuo |
9 |
|
|
shou |
shu |
shua |
shuai |
shuan |
shuam |
shui |
shun |
|
shuo |
9 |
|
rom |
rou |
ru |
|
|
ruan |
|
rui |
run |
|
ruo |
7 |
|
zom |
zou |
zu |
|
|
zuan |
|
zui |
zun |
|
zuo |
7 |
|
com |
cou |
cu |
|
|
cuan |
|
cui |
cun |
|
cuo |
7 |
|
som |
sou |
su |
|
|
suan |
|
sui |
sun |
|
suo |
7 |
u’ |
|
u'an |
|
|
u'e |
|
|
|
u'n |
|
|
4 |
nu’ |
|
|
|
|
nue |
|
|
|
|
|
|
2 |
lu’ |
|
|
|
|
lue |
|
|
|
|
|
|
2 |
ju |
|
juan |
|
|
jue |
|
|
|
jun |
|
|
4 |
qu |
|
quan |
|
|
que |
|
|
|
qun |
|
|
4 |
xu |
|
xuan |
|
|
xue |
|
|
|
xun |
|
|
4 |
下篇- 自动分词的应用--- 诗经与今日词汇
1.0 诗经双音节词语总计
自动分词可用于收集新词汇,即把现代任何简体文章,输入于自动分词程式,文章内如有“库存”以外的新词,仍呈现语素(单字)状态,便可摘出而组合之。笔者现有的46,000多个“库存词汇”,便有二成是这样搜集来的(包括库存遗漏的旧词汇)。笔者喜欢收集的文章包含世界各地新闻报导、时评,以及若干名家的散文。
另一个应用的例子,即本文主题:诗经内究竟有多少双音的现代词汇?这是个有趣的统计。
“在汉语的发展史上,先秦的两周时代,是汉语词汇由以单音词为主、向双音词为主开始过渡的重要发展阶段,这些单音词构造了复合词…” [1] 。 我的统计,诗经305篇,共有32960字,用了2852字种 [2],而其中究有多少是双音节的词语仍留存在现代文章之中呢? 便可利用自动分词的程式来收集。
我把诗经分为 “国风、小雅、大雅、颂” 四类,各别统计,而后加以综合的。这类双音词的总计资料如次表;表内“综合” 是净计的数目,而四字“成语”大都由双音词并合而成的,例如:不忮不求、小心翼翼 、战战兢兢、允文允武……。因此,就现代一般引用的“双音词”来说,诗经留给我们的“双音词”,约650个之多。(见次表,521+2*64)
表1. 诗经诗汇总计
类别 |
双音词 |
四字成语 |
国风 |
233 |
12 |
小雅 |
220 |
28 |
大雅 |
170 |
22 |
颂 |
76 |
6 |
综合 |
521 |
64 |
2.0 诗经词语的分类统计
现把诗经521个的双音词,依其“词性”区别,分成如下各类。详下列 各表: 2a ~ 2e,表3。
一般说来,词语的词性须由整篇诗句的结构及词义决定,笔者并未深入探讨。以下各表分类只表示笔者个人的概略印象,其实并不准确;而且有些词语,一身可兼二种词性,得依该词语在句中的“位格” 而定。 因此,本节所列的“词语分类”,仅供参考。
表2a. 名词- 人称 80
一人 |
人民 |
上天 |
上帝 |
大人 |
大夫 |
大王 |
大伯 |
大宗 |
大师 |
女士 |
女子 |
子女 |
子孙 |
小人 |
小子 |
万民 |
元老 |
公子 |
公路* |
天子 |
心曲 |
文武 |
水浒 |
爪牙 |
父母 |
王公 |
王后 |
王室 |
王国 |
他人 |
兄弟 |
古人 |
右手 |
司徒 |
叫号 |
左手 |
玉女 |
伊人 |
先民 |
先生 |
先祖 |
同姓 |
同僚 |
死人 |
百姓 |
老夫 |
行人 |
君子 |
孝子 |
弟兄 |
男子 |
私人 |
周公 |
朋友 |
武人 |
武夫 |
威仪 |
美人 |
面目 |
哲人 |
家人 |
庶民 |
淑女 |
富人 |
曾孙 |
童子 |
善人 |
嘉宾 |
寡人 |
寡妇 |
黎民 |
义类* |
众人 |
农夫 |
国人 |
妇人 |
孙子 |
宾客 |
长子 |
表2b. 名词- 事物 - 116
七月 |
九月 |
十月 |
三秋 |
夕阳 |
大风 |
山川 |
中原 |
中国 |
云汉 |
六月 |
日月 |
冬日 |
北国 |
北风 |
四方 |
四月 |
四海 |
正月 |
甘雨 |
白露 |
旭日 |
西方 |
明星 |
河水 |
南方 |
南海 |
南国 |
幽谷 |
春日 |
春秋 |
泉水 |
泉源 |
洪水 |
流水 |
秋日 |
朔方 |
泰山 |
海外 |
羔羊 |
高山 |
晨风 |
深谷 |
寒暑 |
朝阳 |
稻田 |
疆土 |
乐土 |
旷野 |
涟猗 |
苍天 |
阴阳 |
风雨 |
土方 |
大路 |
大国 |
干戈 |
中心 |
丰年 |
公事 |
公堂 |
天命 |
文德 |
木瓜 |
古训 |
玄鸟 |
玉佩 |
后患 |
好言 |
成命 |
成说 |
竹竿 |
行道 |
衣服 |
衣裳 |
芍药 |
宗室 |
枝叶 |
松柏 |
武功 |
狐狸 |
狐裘 |
附庸 |
前驱 |
封建 |
急难 |
流言 |
家室 |
桑葚 |
桃李 |
涕泗 |
素餐 |
酒食 |
酒浆 |
婚姻 |
梧桐 |
喜乐 |
琴瑟 |
蜉蝣 |
德行 |
螟蛉 |
蟋蟀 |
蟊贼 |
螽斯 |
懿德 |
乔木 |
仪式 |
凤凰 |
报章 |
礼仪 |
纲纪 |
苍蝇 |
败类 |
飞虫 |
鸳鸯 |
鸿雁 |
|
|
|
|
表2c. 动词 - 155
下来 |
上下 |
小心 |
不可 |
不失 |
不用 |
不如 |
不到 |
不宜 |
不易 |
不服 |
不知 |
不胜 |
不容 |
不屑 |
不能 |
不得 |
不敢 |
不意 |
不愧 |
不虞 |
不解 |
不遂 |
不为 |
不兴 |
不报 |
不时* |
不测 |
不识 |
不顾 |
反复 |
反侧 |
天生 |
太甚 |
日出 |
以为 |
出入 |
出于 |
出自 |
出征 |
出游 |
可以 |
必有 |
未有 |
未定 |
未知 |
正是* |
永久 |
甘心 |
生子 |
用兵 |
亦可 |
亦有 |
伐木 |
休息 |
各有 |
在手 |
在位 |
如一 |
安息 |
式微 |
忖度 |
有如 |
优游 |
作为 |
作对 |
告成 |
忘我 |
忍心 |
改作 |
改造 |
改为 |
言笑 |
走马 |
怀春 |
定居 |
宛然 |
往来 |
征伐 |
所作 |
所谓 |
沸腾* |
舍命 |
雨雪 |
保右 |
保有 |
匍匐 |
哀鸣 |
流亡 |
流离 |
相好 |
相遇 |
相见 |
洒扫 |
恭敬 |
笑语 |
假寐 |
得罪 |
御侮 |
教诲 |
聊以 |
莫不 |
莫如 |
莫非 |
就绪 |
微行 |
新婚 |
照临 |
踊跃 |
震惊 |
邂逅 |
丧乱 |
从事 |
会同 |
伤怀 |
伤悲 |
伫立 |
兴师 |
劳心 |
劳苦 |
奋飞 |
尔后 |
尽瘁 |
属于 |
岂不 |
岂敢 |
归于 |
忧伤 |
戏谑 |
携手 |
无几 |
无不 |
无知 |
无非 |
无悔 |
无望 |
无感 |
无为 |
无从 |
来自 |
潜在 |
独处 |
纠葛 |
维新 |
谁知 |
谗言 |
辗转 |
隐忧 |
难知 |
颠倒 |
颠覆 |
饮食 |
饮酒 |
驰驱 |
骄人 |
|
|
|
|
|
表2d. 形容 / 副词- 141
一方 |
一日 |
一朝 |
九十 |
几何 |
三百 |
小康 |
万年 |
万福 |
不已 |
不少 |
不日 |
不平 |
不宁 |
不同 |
不多 |
不利 |
不良 |
不足 |
不明 |
不爽 |
不祥 |
不难 |
不顺 |
中央 |
公允 |
日用 |
可畏 |
左右 |
左翼 |
正直 |
永世 |
先后 |
同心 |
同行 |
同车 |
夙夜 |
多日 |
如玉 |
如此 |
如何 |
如彼 |
有力 |
有心 |
有年 |
有事 |
有害 |
有神 |
有情 |
有罪 |
有声 |
有闲 |
百世 |
百里 |
百亿 |
老成 |
西南 |
劬劳 |
灼灼 |
宜人 |
尚可 |
明明 |
泛泛 |
青青 |
奕奕 |
屋漏 |
幽幽 |
拮据 |
洋洋 |
洋洋 |
活活* |
差池 |
悄悄 |
浩浩 |
耿耿 |
草草* |
迷乱 |
凄凄 |
偕老 |
婆娑 |
崔嵬 |
清明 |
淫威 |
皎皎 |
眷眷 |
逍遥 |
陶陶 |
朝夕 |
萋萋 |
菁菁 |
雁行 |
滂沱 |
滔滔 |
赫赫 |
雌雄 |
粼粼 |
翩翩 |
蓬蓬 |
凝脂 |
翱翔 |
翼翼 |
薄薄* |
靡靡 |
东方 |
东南 |
东门 |
为仇 |
习习 |
倾城 |
凿凿 |
参差 |
处处 |
实实 |
无日 |
无余 |
无度 |
无害 |
无臭 |
无期 |
无辜 |
无罪 |
无疆 |
无声 |
济济 |
涟涟 |
渐渐* |
硕大 |
终日 |
绵绵 |
绸缪 |
缱绻 |
艰难 |
苍苍 |
跃跃 |
跄跄 |
连连 |
迟迟 |
闲闲 |
阴雨 |
饥渴 |
饥馑 |
|
|
|
|
|
|
|
|
|
表2e. 助词等 - 29
于今 |
之下 |
之上 |
之后 |
之极 |
之流 |
及其 |
方有 |
比如 |
与其 |
在下 |
在上 |
在于 |
自古 |
自外 |
至于 |
至今 |
何不 |
何以 |
何其 |
居然 |
既有 |
既往 |
曷不 |
庶几 |
为此 |
为期 |
虽则 |
如之何 |
|
表3. 常被引用的四字成语 64
二三其德 |
||
子子孙孙 |
||
小心翼翼 |
||
万寿无疆 |
||
不可救药 |
||
不忮不求 |
||
允文允武 |
||
天作之合 |
||
孔武有力 |
||
巧言如簧 |
||
夙夜匪解 |
||
夙兴夜寐 |
||
自求多福 |
||
自诒伊戚 |
||
信誓旦旦 |
||
洒扫庭内 |
||
涕零如雨 |
||
高高在上 |
||
筑室道谋 |
||
搔首踟蹰 |
||
遇人不淑 |
||
兢兢业业 |
||
踽踽独行 |
||
发言盈庭 |
||
忧心忡忡 |
||
忧心殷殷 |
||
战战兢兢 |
||
济济多士 |
||
经之营之 |
||
经营四方 |
||
绰绰有裕 |
||
进退维谷 |
||
风雨凄凄 |
||
伊于胡厎 |
||
|
||
如临深渊,如履薄冰 |
||
投我以桃,报之以李 |
||
邦畿千里,维民所止 |
||
周虽旧邦,其命维新 |
||
妻子好合,如鼓瑟琴 |
||
昔我往矣,杨柳依依 |
||
青青子衿,悠悠我心 |
||
高山仰止,景行行止 |
||
无父何怙,无母何恃 |
||
诲尔谆谆,听我藐藐 |
||
风雨如晦,鸡鸣不已 |
||
饮之食之,教之诲之 |
||
鸢飞戾天,鱼跃于渊 |
3.0 有些词语古今意义不同
这儿须注意的,有些词语的词形虽同,但古今意义不同。不宜以现代的词义,来讲解诗经的原意。以下是一些例子。
词语 |
真正词义 |
出处 |
活活 |
“北流活活”- 象声词,水流声 |
卫风:硕人 |
薄薄
|
“载驱薄薄”- 车子的疾行声 |
齐风:载驱 |
公路 |
官名,掌管诸侯的路车 |
魏风:汾沮洳 |
正是 |
“正是国人”- 作国人的榜样 |
曹风:鸤鸠 [3] |
沸腾 |
“百川沸腾”- 百川汹涌 |
小雅:十月之交: |
不时 |
不时=不是,借音 |
同上 [3] |
草草
|
草草,劳心也 <传> |
小雅:巷伯 |
渐渐
|
“渐渐之石”- 山石高峻-<传> |
小雅:渐渐之石 |
义类
|
一指“善类”;一指“强族” |
大雅:荡 |
不仅双音词如此,有些单字也难以现代字义解说,这是我们读经时要注意的。
4.0 分词连写的其它应用
1. 用于计算“汉拼” 拼词后的“同音词” 情况
自动分词程式的操作次序是:
原文 → 分词的汉语拼音(第二式) → 分词的原文
该程式“内存词库” 是 汉词 与“拼音词” 对照,因此可由库存46,000个“拼音词” 统计出同音词。统计结果:三音节以上的词语,并无同音现象。二音节词的同音词共有1968个,占比5%,(参见本文上篇2.0节)。这表示“拼音汉语”的设计,不宜以不标调的单字为准,而必须基于标调的多音节词语,方可解决同音问题。
2. 自动分词是“词汇计量研究”的必要工具
词汇的计量研究,与“计算语言学”息息相关。这方面笔者是门外汉,但从常识推想可知:无论是古今或中外语文的翻译,必须是二者之间的词汇对应,而“分词连写”,就是最基本的先期工作了
[1]夏传才:<诗经语言艺术新编> p2
[2]李牧: < 汉字系统工程的计量研究> p.205
[3]袁愈荌译:<诗经> p.339,494
[后记]
两三个月来,我一直在从各式各样的文章中,搜集词汇,工作中有甘有苦。
我把网上要读的新闻报导、评论,例如北美的世界日报、台湾的联合报,英国金融时报(FT)中文网……,先把它们以[程式]自动分词后再读,若有新词,则摘录之,放入内存词库。
一般说来,报纸的社评逻辑性强,用词严谨,一丝不苟。
我也曾从所谓名家的散文集中,随机抽取阅读,例如:梁实秋、林语堂、李敖、余光中……,一面欣赏,一面摘取词语,以补充库存的遗漏。我发觉各家的遣词用字,各有特色:梁实秋精炼,李敖粗放,林语堂幽默,余光中则文如其诗……。也许是细读的关系,他们的文彩,从分词的文章中,格外能显示出来。
有一次,我把钱钟书的著名小说<围城>,整本分次输入程式,原意是要收集词语,却因钱先生的文笔诙谐,故事引人入胜,而一直读下去,有些章节竟忘了摘录。
就本主题(诗经词语)言,我把全书305首,约分为20 次输入,每次自动分词所费时间只有数秒;然而摘录及整理都需要人工。前后大约共花了5-6天才把整本诗经录完。
建立或更新词库,更是费时的工作。尤其遇到“错配” 的情况,就得重新调整词库内词语的次序。
校对也是一样,要使近4万7千个词汇 (汉拼及汉语),个个独立,不得有一词重复,虽有软件协助,仍是相当烦琐的工作。
这种搜集词汇的工作,永无止期;只可藉此消遣,从阅读各式各样的文章中,另取乐趣。