汉语文及汉拼自动分词的实验及应用

本文分为上、下二篇,上篇叙述“自动分词程式的由来,下篇则举例说明自动分词的应用。

            上篇:自动分词的实验     

1.0  主题说明

这是拟定一个程式,使汉语文与汉语拼音(第二式)之间,相互转换。当输入一篇“不分词的汉语文章,可输出“分词拼写的汉拼(第二式);再把己分词的汉拼输入原程式,可得分词拼写的汉语文。例如,把孙中山<遗嘱>的首段输入下面程式---

    http://go.infoblox.com/temp/zh/ch_phonics_word_conversion_wp2_pw1.php

余致力国民革命,凡四十年,其目的在求中国之自由平等。积四十年之经验,深知欲达到此目的,必须唤起民众及联合世界上以平等待我之民族,共同奋斗。

汉字转拼音后,便得分词拼写的汉拼

u'v11 zhiyliy guovminv gevmimy fanv2 siy shivnianv qiv muydi zai qiuv Zhomguov zhi ziyiouv pimvdemw ji5 siy shivnianv zhi jim-iany1 shenzhi u'y5 davdaoy ciw muydi biyxu1 huanyqiw minvzhomy jiv lianvhev shiyjiey shamy iw1 pimvdemw daiy1 uo zhi minvzuv gomytomv fenydouy

再把此汉拼输入,即可转成分词的汉语文:

致力 国民 革命 ,凡 四十 ,其 目的 中国 自由 平等 。积 四十

经验 ,深知 达到 目的 ,必须 唤起 民众 联合 世界 平等 民族 ,共同 奋斗

所谓汉拼第二式,主要是改变汉拼的标调方式:以专用字母 vwy 第二、三、四声,置于音节之尾,第一声及轻声不标,详于文说明。

 

2.0  实验的结果

1. 本实验证明汉语拼音须带声调,并分词拼写,方可解决汉拼的同音问题。以本程式 <内存词库>为例,多音节词共约40,000个,其中三音节以上的词语,并无同音现象。二音节词的同音词共有1968个,占比5%,其中绝大部分只有1 组同音(如下表)。故只须以数码1,2,3…置于词尾,以区别之。

 

2. 本程式虽可把汉语文章自动分词,但我无意在此倡导中文的分词连写。我只是把它当作搜集新词汇的工具。因词汇随着社会发展而日新月异,许多现代文章的新词,可藉此程式汇集后,放入<内存词库>中。现有词库内涵,约八成来自<现代汉语常用词表>,二成则是自网上各种各式的文章中搜集而组成的。此项工作,目前仍在继续进行中。

3. 本程式尚非完善,有时会出现错配,例如输入“军事实力,正确的分词应为“军事 实力

但有时错作“军 事实 。此因汉字作为“词素,十分活泼,一个字可组配成多种词语。一有错配,就须把 <内存词库> 的词汇顺序更正。

4.因词库容量有限,目前只收简体词汇。繁体文章须先转成简体后,再行输入,又最好输入的是现代文章,因内存词库除成语外,大多采录现代词汇。

 

3.0  汉拼第二式说明

我拟定的汉拼第二式是这样的:

1.改变汉拼的标调方式:以专用字母 vwy 第二、三、四声,置于音节之尾,第一声及轻声不标;[ng]省作[m][ü]改为[u']例如 ---

兵强马壮 - bīng qiáng mǎ zhuàng bim qiamv maw zhuamy

[w,y]专作标调符号之后,以 [u,i] 取代它们原有的功能 ---

洋洋得意- yáng yáng dé yì iamv iamv dev iy

无限风光- wú xiàn fēng guāng uv xiany fem guam

把原有标调字母的帽子脱下来,不仅有利于在标准键盘上打字,而且[w,y] 在汉拼中的隔音作用,仍保持不变,只是把它们的位置从字头(前缀)换成字尾(后缀)而已。

汉拼中的[ü]标调时,常须戴二顶帽子,看起来有些别扭;[ü]改作[u']就可在键盘上打出:

红男绿女- hóng nán lǜ nǚ → homv nanv lu'y nu'w

 [v,w,y] 专作标调符号的另一个好处:可在键盘上以简单取代方式,把有声调的词语,转换成无声调的:亦即只须消去v,w,y就可,例如:

兵强马壮 - bīng qiáng mǎ zhuàng bim qiamv maw zhuamy bim qiam ma zhuam

 

4.0. 汉拼的词化(多音节化)

以前例来说,适当的表达方式是分词拼写---

     兵强马壮 bimqiamv-mawzhuamy

     洋洋得意  ianvianv-deviy

无限风光  uvxiany-femguam

请注意,单音节词化成双()音节词时,声调符号 v,w,y有隔音作用。两个双音节词拼写成四音

节的成语时,另加隔音符号 [-]

汉拼的词化,是个繁复的工作,不能依赖人工操作,而且词语日新月异,需要建立庞大的词料

库,并须不断的更新补充。因此需籍助于计算机,自动操作。

汉拼的词化,又可作为汉语文词化的先锋,亦可藉以从输入现代文章中,搜集新词汇,一如本实验所作者。至于汉语文须否分词拼写,则见仁见见,个人认为一般应用无此需要。但如有完善的自动分词的软件,则在对外教材或儿童读物,以分词拼写的方式印刷,也许有利于教学,并使初学汉字的人,早日认识汉语词汇。

 

5.0 个人对拼音汉语的看法

近年来在本坛所见的拼音汉语方案,大多以汉拼为本,加上哑音(辨义)字母以分化同音而得。其结果给人的印象似乎只是给汉字编码,难以丢掉拐杖(汉字)而独立自行。但大家似乎也有共识:传统汉字必须维护,拉丁化汉语只是它的另一式,便于某一场合应用而己。拼音汉语可行性虽低,但仍值得讨论。以下是个人对此的看法。

首先,拼音汉语不能放弃声调符号,没有声调的音节只有400个,加上声调后就有1200多个音节,等于增加三倍的字形差别度;而且汉拼声调所代表的信息,已经约定俗成,不用它很可惜。问题在于现行声调符号是字母头上加帽方式,不便在标准键盘上打出,有待改进罢了。

其次,汉语拼音必须词化,也就是以分词拼写(多音节)的方式来表达。这样做,依笔者实验,就可解决大部分的同音问题。

个人认为拼音汉语的主要功能是作为学习汉字的初阶,儿童或外国人学习中国语文,较为有效的步骤可能是:

      汉语拼音 拼音 (拉丁)汉语 汉语 / 汉字

学生在学习拼音汉语时,尚无传统汉字的知识,因此,个人认为设计拼音汉语的原则,不宜完全植基于汉字的字义,而应着重于汉语的语音,否则便成为不折不扣的汉字编码了。

  个人又发现,即使能解决同音问题,拼音汉语的可行性仍是不高,此因文字尚形原则,形似的词语太多,辨认的效率很差,设计者宜从这方面去破解。

 

6.0  检讨及结语

1.第二式汉拼与原式汉拼最大不同之处,除了使用专用字母 v,w,y标调之外,便是以[m][ng]。在400个音节中,共有68个音节尾缀[ng],被[m]取代,占比17%。这也表示这是有效的省码方式。至于使用[m]的原因,一来 [m] [ng]都是鼻音 (前者双唇,后者舌根);二来古汉语及方言都有尾音[m],觉得比用其它字母合适些。至于 [y,w.ü] [i,u,u’]取代,影响的音节只约20个,详见文末 附录2 <汉语第二式 简明音节表>

2. 第二式拼音虽有优点,但也有缺点。现行汉拼采用字母戴帽方式,基本上不占空间;而新式拼音则增加了音节长度。就7000通用字言,估计不标调的阴平,占比24%,音节长度不变;其它三个声调都要增加一个标调的字母长度。因此,在单字组构多音节词时,就要尽可能的省略声调标记。本案参考正词法,拟定了省略声调的原则,详见下文附录 1

3. 本式拼音逐步改进,运用成熟之后,可否作为<汉语第二式>使用?在目前我不作此想,也认为不可行。因为汉拼第二式,仍然没有解决形似问题。由于文字尚形特性(目治),要拉开拼音文字的相似度,实非易事。因此目前我只想把它当作搜集词汇,以及比较古今词汇等的工具,详见本文下篇:<自动分词的应用>

 

附录1 声调字母的省略

汉字组词时,声调的省略,如不碍及词意,有助于缩短词长,但有隔音作用时不省。其原则如下:

1. 译音的外来语,原则上不加声调,或只在最后音节标记声调:。

   - 阿拉伯数码Alabo-shuymaw

2. 双音节叠音词,可省略其中一个,大都省前音节:       

- 鬼鬼祟祟guiwguiw-suiysuiy guiguiw-suisuiy

但有的声调用作隔音的,则不省:

- 斯斯文文sisi-uenvuenv  (其中v用作隔音符号,不省)

3. 构词后缀4- dizheerzi,常读轻声,不标调。

4. 常用词省调的有如下10个: niuozaishiiuw(iouw)iuy(iouy)

di(diy)buge shui

 

附录2- 汉语第二式 简明音节表 399

    m=ng    u'=ü    w,y移作标调用;表中 蓝色的音节是更改的。 [表略]

 

 

 

         下篇- 自动分词的应用--- 诗经与今日词汇

 

1.0  诗经双音节词语总计

 

自动分词可用于收集新词汇,即把现代任何简体文章,输入于自动分词程式,文章内如有“库存以外的新词,仍呈现语素(单字)状态,便可摘出而组合之。笔者现有的46,000多个“库存词汇,便有二成是这样搜集来的(包括库存遗漏的旧词汇)。笔者喜欢收集的文章包含世界各地新闻报导、时评,以及若干名家的散文。

 

另一个应用的例子,即本文主题:诗经内究竟有多少双音的现代词汇?这是个有趣的统计。

“在汉语的发展史上,先秦的两周时代,是汉语词汇由以单音词为主、向双音词为主开始过渡的重要发展阶段,这些单音词构造了复合词…” [1]   我的统计,诗经305篇,共有32960字,用了2852字种 [2],而其中究有多少是双音节的词语仍留存在现代文章之中呢? 便可利用自动分词的程式来收集。

 

      我把诗经分为国风、小雅、大雅、颂四类,各别统计,而后加以综合的。这类双音词的总计资料如次表;表内“综合是净计的数目,而四字成语大都由双音词并合而成的,例如:不忮不求小心翼翼  战战兢兢允文允武……。因此,就现代一般引用的“双音词来说,诗经留给我们的“双音词,约650个之多。(见次表,521+2*64)

  

1. 诗经诗汇总计

类别

双音词

四字成语

国风

233

12

小雅

220

28

大雅

170

22

76

6

综合

521

64

 

 

2.0  诗经词语的分类统计

 

现把诗经521个的双音词,依其词性区别,分成如下各类。详下列 各表: 2a ~ 2e,表3

 

一般说来,词语的词性须由整篇诗句的结构及词义决定,笔者并未深入探讨。以下各表分类只表示笔者个人的概略印象,其实并不准确;而且有些词语,一身可兼二种词性,得依该词语在句中的“位格而定。 因此,本节所列的“词语分类,仅供参考。

 

2a. 名词- 人称  80

一人

人民

上天

上帝

大人

大夫

大王

大伯

大宗 

大师

女士

女子

子女

子孙

小人

小子

万民

元老

公子

公路*

天子

心曲

文武

水浒

爪牙

父母 

王公

王后

王室

王国

他人

兄弟

古人

右手

司徒

叫号

左手

玉女

伊人

先民

先生

先祖

同姓

同僚

死人

百姓

老夫

行人

君子

孝子

弟兄

男子

私人

周公

朋友

武人

武夫

威仪

美人

面目

哲人

家人

庶民

淑女

富人

曾孙

童子

善人

嘉宾

寡人

寡妇

黎民

义类* 

众人

农夫

国人

妇人

孙子

宾客

长子

 

 

2b. 名词- 事物 - 116

七月

九月

十月

三秋

夕阳

大风 

山川  

中原

中国

云汉

六月

日月

冬日 

北国

北风

四方

四月

四海

正月

甘雨

白露

旭日

西方

明星

河水

南方

南海

南国

幽谷

春日 

春秋

泉水

泉源

洪水

流水

秋日 

朔方

泰山

海外

羔羊

高山

晨风

深谷

寒暑

朝阳 

稻田

疆土

乐土

旷野

涟猗

苍天

阴阳

风雨

土方

大路

大国

干戈

中心

丰年

公事

公堂

天命

文德

木瓜

古训

玄鸟

玉佩

后患

好言

成命

成说

竹竿

行道 

衣服

衣裳 

芍药

宗室

枝叶 

松柏

武功

狐狸

狐裘

附庸

前驱

封建

急难

流言

家室

桑葚

桃李

涕泗 

素餐

酒食

酒浆

婚姻

梧桐

喜乐

琴瑟

蜉蝣

德行

螟蛉

蟋蟀

蟊贼

螽斯

懿德

乔木

仪式

凤凰 

报章

礼仪

纲纪

苍蝇

败类

飞虫

鸳鸯  

鸿雁 

 

 

 

 

 

2c. 动词 - 155

下来

上下 

小心

不可 

不失

不用

不如

不到

不宜

不易

不服

不知 

不胜

不容

不屑

不能

不得

不敢

不意

不愧

不虞

不解

不遂

不为

不兴

不报 

不时*

不测

不识

不顾

反复

反侧

天生

太甚 

日出

以为

出入

出于

出自

出征

出游

可以

必有

未有

未定

未知

正是*

永久

甘心

生子

用兵

亦可

亦有

伐木

休息

各有

在手

在位

如一

安息

式微

忖度

有如

优游

作为

作对

告成

忘我

忍心

改作

改造

改为

言笑

走马

怀春

定居

宛然

往来

征伐

所作

所谓 

沸腾*

舍命

雨雪 

保右

保有

匍匐

哀鸣 

流亡

流离

相好

相遇

相见

洒扫

恭敬

笑语

假寐

得罪

御侮

教诲

聊以

莫不

莫如 

莫非

就绪

微行

新婚

照临

踊跃 

震惊

邂逅 

丧乱

从事

会同

伤怀

伤悲

伫立

兴师

劳心

劳苦

奋飞

尔后

尽瘁

属于

岂不

岂敢 

归于

忧伤

戏谑

携手

无几

无不

无知

无非

无悔

无望

无感

无为

无从

来自

潜在

独处

纠葛

维新

谁知

谗言

辗转

隐忧

难知

颠倒 

颠覆

饮食

饮酒 

驰驱

骄人 

 

 

 

 

 

 

 

2d. 形容 / 副词- 141

一方

一日

一朝

九十

几何

三百

小康 

万年

万福

不已

不少

不日   

不平

不宁

不同

不多

不利

不良

不足

不明

不爽

不祥

不难

不顺

中央

公允

日用 

可畏

左右

左翼

正直

永世

先后

同心 

同行

同车

夙夜

多日

如玉

如此

如何

如彼 

有力

有心

有年

有事

有害

有神

有情

有罪

有声

有闲

百世

百里

百亿

老成

西南

劬劳 

灼灼

宜人

尚可

明明

泛泛 

青青

奕奕 

屋漏

幽幽 

拮据   

洋洋

洋洋   

活活*   

差池

悄悄

浩浩  

耿耿

草草*   

迷乱

凄凄

偕老

婆娑

崔嵬

清明

淫威

皎皎 

眷眷

逍遥

陶陶

朝夕 

萋萋

菁菁 

雁行

滂沱

滔滔 

赫赫

雌雄

粼粼

翩翩 

蓬蓬

凝脂

翱翔

翼翼

薄薄*  

靡靡  

东方

东南

东门

为仇

习习

倾城

凿凿

参差

处处

实实

无日   

无余

无度

无害

无臭

无期

无辜

无罪 

无疆

无声

济济

涟涟

渐渐*   

硕大  

终日

绵绵

绸缪

缱绻

艰难

苍苍 

跃跃 

跄跄 

连连

迟迟

闲闲

阴雨

饥渴

饥馑

 

 

 

 

 

 

 

 

 

 

2e. 助词等 - 29

于今

之下

之上

之后

之极

之流 

及其

方有

比如

与其

在下

在上

在于

自古

自外

至于

至今

何不

何以

何其

居然

既有

既往

曷不

庶几

为此

为期

虽则

如之何

 

 

 

3. 常被引用的四字成语 64

 

二三其德

子子孙孙

小心翼翼 

万寿无疆

不可救药

不忮不求

允文允武

天作之合

孔武有力

巧言如簧

夙夜匪解 

夙兴夜寐 

自求多福

自诒伊戚

信誓旦旦

洒扫庭内

涕零如雨

高高在上

筑室道谋

搔首踟蹰

遇人不淑

兢兢业业

踽踽独行 

发言盈庭

忧心忡忡

忧心殷殷

战战兢兢

济济多士

经之营之

经营四方

绰绰有裕

进退维谷

风雨凄凄 

伊于胡厎

它山之石,可以攻玉

巧笑倩兮,美目盼兮

如临深渊,如履薄冰

投我以桃,报之以李 

邦畿千里,维民所止

周虽旧邦,其命维新

妻子好合,如鼓瑟琴

昔我往矣,杨柳依依

青青子衿,悠悠我心

高山仰止,景行行止

无父何怙,无母何恃

诲尔谆谆,听我藐藐 

风雨如晦,鸡鸣不已  

饮之食之,教之诲之 

鸢飞戾天,鱼跃于渊

 

 

3.0  有些词语古今意义不同

这儿须注意的,有些词语的词形虽同,但古今意义不同。不宜以现代的词义,来讲解诗经的原意。以下是一些例子。

 

词语

真正词义

出处

活活

北流活活”- 象声词,水流声

卫风:硕人

薄薄  

载驱薄薄- 车子的疾行声

齐风:载驱

公路

官名,掌管诸侯的路车

魏风:汾沮洳

正是

正是国人”- 作国人的榜样

曹风:鸤鸠 [3]

沸腾

百川沸腾”- 百川汹涌

小雅:十月之交:

不时

不时=不是,借音

同上 [3]

草草   

草草,劳心也 <>

小雅:巷伯

渐渐   

渐渐之石”- 山石高峻-<>

小雅:渐渐之石

义类 

一指善类;一指强族

大雅:

 

不仅双音词如此,有些单字也难以现代字义解说,这是我们读经时要注意的。

 

 

4.0  分词连写的其它应用

 

1. 用于计算“汉拼拼词后的“同音词情况

 

自动分词程式的操作次序是:

 

原文 分词的汉语拼音(第二式) 分词的原文

 

该程式“内存词库 汉词 与“拼音词对照,因此可由库存46,000个“拼音词统计出同音词。统计结果:三音节以上的词语,并无同音现象。二音节词的同音词共有1968个,占比5%(参见本文上篇2.0)。这表示拼音汉语的设计,不宜以不标调的单字为准,而必须基于标调的多音节词语,方可解决同音问题。

 

2. 自动分词是词汇计量研究的必要工具

 

词汇的计量研究,与计算语言学”息息相关。这方面笔者是门外汉,但从常识推想可知:无论是古今或中外语文的翻译,必须是二者之间的词汇对应,而分词连写,就是最基本的先期工作了

 

[1]夏传才:<诗经语言艺术新编>  p2

[2]李牧:    < 汉字系统工程的计量研究>  p.205

[3]袁愈荌译:<诗经> p.339,494

 

 

[后记]

 

两三个月来,我一直在从各式各样的文章中,搜集词汇,工作中有甘有苦。

我把网上要读的新闻报导、评论,例如北美的世界日报、台湾的联合报,英国金融时报(FT)中文网……,先把它们以[程式]自动分词后再读,若有新词,则摘录之,放入内存词库。

一般说来,报纸的社评逻辑性强,用词严谨,一丝不苟。

 

我也曾从所谓名家的散文集中,随机抽取阅读,例如:梁实秋、林语堂、李敖、余光中……,一面欣赏,一面摘取词语,以补充库存的遗漏。我发觉各家的遣词用字,各有特色:梁实秋精炼,李敖粗放,林语堂幽默,余光中则文如其诗……。也许是细读的关系,他们的文彩,从分词的文章中,格外能显示出来。

 

    有一次,我把钱钟书的著名小说<围城>,整本分次输入程式,原意是要收集词语,却因钱先生的文笔诙谐,故事引人入胜,而一直读下去,有些章节竟忘了摘录。

 

    就本主题(诗经词语)言,我把全书305首,约分为20 次输入,每次自动分词所费时间只有数秒;然而摘录及整理都需要人工。前后大约共花了5-6天才把整本诗经录完。

 

    建立或更新词库,更是费时的工作。尤其遇到错配 的情况,就得重新调整词库内词语的次序。

校对也是一样,要使近47千个词汇 (汉拼及汉语),个个独立,不得有一词重复,虽有软件协助,仍是相当烦琐的工作。

这种搜集词汇的工作,永无止期;只可藉此消遣,从阅读各式各样的文章中,另取乐趣。