汉字第二式可行性探讨
1.0 概要
-------- - 1.1 引言 1.2 为何传统汉字不可废除? 1.3 汉字第二式的功用
2.0 拼音汉字的设计- 2.1设计重点 2.2词容量计算 2.3声调设定 2.4词长的减短
3.0 拼音汉字的实验- 3.1
<拼音汉字>实验样本 3.2多音节同音词检讨 3.3单音节词同音统计
4.0 结论
---------- 4.1 传统汉字与<拼音汉字>相辅相成 4.2<拼音汉字>设计要点与可行性
1.0 概要
1.1 引言
我个人一直期盼真有可行的<拼音汉字>出现,惟迄今尚未找到。主要原因是搞拼音汉字的人设想的目标太高,他们想完全取代方块汉字,这是不可能的,也是没有必要的。试想,方块汉字是我国悠久的传统文化的载体,能用拼音文字完全取代么?我的设想<拼音汉字>只可用作辅助性的沟通工具,例如日常通讯、计算机编程等。此种辅助性汉字可称为”汉字第二式”。
<拼音文字>的物质基础是它的语音资源。<汉语拼音方案>已可如实地反映了汉语(普通话)的语音资源,因此现实的做法应该是提升<汉语拼音>的功能,使它能在一定场合发挥它的最大的效益。亦即我国如果采用”一语双文”,依然应以方块汉字为主。
把<拼音汉字>的目标放低之后,就只须把最常用的汉字(约3500-4500)拼音化,因同音字量减少,拟定的方案可以简化,可行性因之提高。本文即探讨如何在现行的<汉语拼音>基础上设计加工,使<拼音汉字>具有可行性。
1990 年代,以<汉语拼音>代替汉字书写简讯,在网络上流行起来。1996 年规范汉词拼法的<汉语拼音正词法>公布后,<汉语拼音>更接近准书写系统的地位。可以这样说:汉字第二式的创建,在社会上,尤其在某些场合,已有相当的需求。
1.2 为何汉字不可废除?
这可从如下几方面来说。
1. 汉语是以单音节词为基础的“语音多载”语言,最适合的文字是“形异意异”的方块文字。汉字有跨方言、超世代的好处,包涵着丰富的文化信息,它是我们与历史文化之间的脐带。对传统文化的认同和延续都是很必要的。
2.中国形意文字体系,与西方拉丁字母文字体系,二者互有短长。新研究显示文字并非象一些专家所预想的那样,单纯地由表意文字向表音文字发展的,而是趋向于综合性文字的发展道路。
3. 汉字能长久存在的内在原因,是汉字本身具有的形声属性,使它生机绵绵不绝。最明显的一个例子,近代化学元素的命名,气体的从气,液体从氵,固体则有金属与非金属之别,或从金或从石,显示汉字的形声创型可以与时俱进。
4. 在语词结构上汉字较西方拼音文字亦有其优点:
a) 理论上英语有504音节,汉语带声调可达1200音节。在语音单载的情况下,英语必须增加音节的数量(词长),以新词表达世上新事物。与之相较,汉语文的“词长”则较短。
b) 汉语文单词的使用比英语的灵活,一般可不限词性,例如:“水车”、“车水”、“车水马龙”,“水车”一词的“车”是名词;“车水”的“车”是动词;“车水马龙”是形容词。
c) 汉语文组词能力强:例如一个”天”字可组成许多词:天下、天天、天平、天然、天才、天生、天籁、青天、晴天、阴天、白天、聊天、天桥、天马行空、…。
d). 更重要的一点,汉字本身也在不断的发展 (优化) 中,一般认为汉字有“三多”(字多、形多、读音多)、“五难”(难认、难读、难写、难记、难检排)的缺点,日后都可能获得缓解。单是现代汉字信息化的发展,就有利于汉字的定形、定音、定量、定序。
1.3 汉字第二式的功用
既然方块汉字不可废弃,也有其优点,为何要搞第二式的<拼音汉字>呢?主要理由是它可作为方块汉字的得力助手,完成下列任务:
a).用于创编各种电脑软件,打破英文对电脑软件的垄断。
b).作为方块汉字的注音,它可能比注音符号或<汉语拼音>更明确、更易使用。
c).在不涉及古汉语的场合,可代替方块汉字,作为一般文字使用。
d).促进普通话的普及,可作为学习方块汉字的初阶。尤其于华侨子弟或外国人学习汉语文有益。
e).<拼音汉字>与方块汉字是一个个互相对应的,<拼音汉字>可直接作为电脑输入码。
f).可以用来解决人名、地名和科学术语的统一译名问题。
g).<拼音汉字>有利于文字资料的编辑、排序、索引,以及各项研究和实验工作。
要之,拼音汉字与方块汉字是相辅相成的,不仅能增加教学、编译等实用功能、还可用它推广汉语文的传播,藉以发扬中华文化。
2.0 拼音汉字的设计
2.1 设计的重点
首先,<拼音汉字>的设计是以现代汉语规范为基础的,不涉及文言文。因此须选出高字频的常用字3500-4500个,并从<现代汉语常用词>中抽样,来作研究的样本:
1. 由大陆、台湾、香港常用字字频等的综合统计共得高频单字5726个
2. 由<现代汉语常用词>统计,共得字种5071字
3. 由前二者交集得单字4562个当作本设计的单音节词样本
4. 由56,084<现代汉语常用词>(Ref-1)中,选用12170词,当作本设计的多音节词样本
其次,汉语文同音多,在5,000个通用字中,同音读4个以上的,超过半数。汉字同音多是未能演化成拼音文字的主要原因之一。现代语文多音节词的增加,固可缓解汉字同音多的问题。但这仍是创制<拼音汉字>的主要关注点。
再次,汉语文与西方不同的是有声调的变化,汉字音标,若不计声调的变化,有 400多组,考虑声调变化的音节,约在1200上下。设计<拼音汉字>就要解决声调问题,常用的拉丁字母只有26个,要考量用那个字母来标示才比较合适。
最后,词型过长问题:因为<拼音汉字>的基础是<汉语拼音方案>,有些汉拼的词长,如zhuɑnɡ、chuɑnɡ、shuɑnɡ,一个音节就有6个字母,多音节词应如何减省词长,就要加以研究。
要之,<拼音汉字>的设计,其重点在于要解决:1.同音问题,2.声调问题,3.词长问题
2.2 词容量的计算
汉字若不计声调,共有400个音节;在理论上,二字词,可有 400^2=160,000 音节;三字词为400^3=6.4x10^7…。实际上,不可能每个单字都可与其它单字相配成词,可组配的词容量,远低于此数,因此须假定组词的机率(y)。
计算词容量的公式 ---
设 n=用于组词的音节(字)数
x=词长=每个词的音节(字)数
N=可组词的数量(词容量)
则 N=(n^x)^y
式中(n^x)是理论词容量,(^y)是组词机率
卢遂现先生提出的机率y=^0.5,其词容量公式是:(n^x)^0.5。
张时利先生提出的机率y=^0.8,其词容量公式是:(n^x)^0.8
笔者认为卢氏计算的词容量偏低,张氏计算的词容量偏高,可取二者中数,亦即机率可假定为(0.7)次方,由此计算词容量如下。
1.假定<拼音汉字>不设声调,并假定每个音节平均使用3.3个拉丁字母,以此计算”词容量”如次表:
音节 |
字母 |
理论词容量 |
词容量-机率^0.7 |
单音节 |
3.3 |
400 (x) |
400 |
双音节 |
6.6 |
1.73x10^5 (x^2) |
1.10x10^4=11,000 |
三音节 |
9.9 |
6.40x10^7 (x^3) |
3.00x10^5 |
四音节 |
13.2 |
2.60x10^10 (x^4) |
2.00x10^7 |
不设声调,双音节的词容量估约 11,000,显然不够用,因此拼音汉字必须增设声调,其词容量计算如次:
2.设定声调的词容量:
音节 |
字母 |
理论词容量 |
词容量-机率^0.7 |
单音节 |
3.3 |
1,600(x) |
1300 |
双音节 |
6.6 |
2.60x10^6 (x^2) |
6.70x10^4=67,000 |
三音节 |
9.9 |
4.10x10^9 (x^3) |
3.50x10^6 |
四音节 |
13.2 |
6.60x10^12(x^4) |
5.20x10^8 |
若设声调,双音节词容量约为 67,000。
依现代汉语常用词统计,在56,000个常用词中,二字词约为40,000个。这表示<拼音汉字>若只用于表达现代汉语,现有1300音节可能足敷所用。也就是说<拼音汉字>的设计,除声调外,可能不必增加别的字符,如
表”词性、义类”等。这些额外字符也是用拉丁字母掺在音标之中,不仅增加词的长度,而且难于学习记忆。
有人认为<拼音汉字>加注四声,无论书写还是键入都很麻烦。文字是视觉符号,主要是供看的,应力求简洁。西方的各种语文只有轻、重音之别,<拼音汉字>是否也可如法泡制,不标声调呢?因为声调完全可以在学习的阶段掌握,一旦掌握了,即使看不到音标,也能读出正确的读音来的。
这话说得似乎有理,但只用400多个不同形态的拉丁字母的词型,来构建<拼音汉字>,词容量(即可容纳异拼的容量)实在不足,前文已有计算;词型相同或相似的太多,势必无法分辨认读。
古汉语声调有8-9个,现代汉语不计轻声只有4个,未来汉语是否继续减少声调,演变成只有轻重音之别,并不可知。而就目前情况来说,加注声调,实有必要。
汉语的”同音词”一定比”同音字”要少很多。近代”多音节词的发展,正可弥补汉语先天的音节的限制(赵元任:把轻声估计在内,汉语共有1279音节)。为区别同音,达到表意功能,近代汉语乃缀字成词,词汇因之大量增加。严格说来,除若干单字词外,现代汉字只代表词(语)素及音节,这给我们一个启示:.搞”拼音汉字”者,只能限于现代汉语,而且必须与多音节词对应,才有成功的可能。
2.3 声调的设定
在一列英文字母中,小写L的字形向上突出,犹如阳平记号[é]向上扬;字母[k]音尾向下收敛,类似去声的声调[è]向下降;上声符号[ě]与[v]形相似,正可以[v]表之。阴平一般可不必标记;轻声基本上是一种语气,不宜列在声调之内。为减少词长,[ng] 现以[m]暂代。长远之计,宜改造键盘,增加一键[ŋ]。[ŋ]由古代”疑母”变来,现代普通话”疑母”已变作[yi],但[ŋ]音仍存在韵尾,且是个重要的尾音。
汉字4种声调可以如下歌谣记诵之:
阴平 轻声莫标记,
阳平”l”声上扬;
上声”v”曲折呼,
去声带k 急收降。
韵母四声设定如次表:
原 |
ā |
á |
ǎ |
à |
ō |
ó |
ǒ |
ò |
ē |
é |
ě |
è |
新 |
a
|
al |
av |
ak |
o |
ol |
ov |
ok |
e |
el |
ev |
ek |
原 |
āi |
ái |
ǎi |
ài |
ēi |
éi |
ěi |
èi |
āo |
áo |
ǎo |
ào |
新 |
ai |
ail |
aiv |
aik |
ei |
eil |
eiv |
eik |
ao |
aol |
aov |
aok |
原 |
ōu |
óu |
ǒu |
òu |
ān |
án |
ǎn |
àn |
ēn |
én |
ěn |
èn |
新 |
ou |
oul |
ouv |
ouk |
an |
anl |
anv |
ank |
en |
enl |
env |
enk |
原 |
āng |
áng |
ǎng |
àng |
ēng |
éng |
ěng |
èng |
ōng |
óng |
ǒng |
òng |
新 |
am |
aml |
amv |
amk |
em |
eml |
emv |
emk |
om |
oml |
omv |
omk |
原 |
ī |
í |
ǐ |
ì |
ū |
ú |
ǔ |
ù |
ü |
ǘ |
ǚ |
ǜ |
新 |
i |
il |
iv |
ik |
u |
ul |
uv |
|
v |
vl |
vv |
vk |
本文的主题亦可另称为<汉语拼音第二式研究>。讨论的重点是<汉拼>问题,与敏感的”文革”无关。
现行的<汉语拼音>方案,与其它类似的拼音方案或注音符号比较,具有不少优点,这是大家所公认的。其实它已具有”准文字”的实力,何以无法发挥它的功用?笔者认为主要原因有二:
1.它的声调标记有些复杂,6 个主元音 a,e,i,o,u,ü 各有4 声调,合计24个符号;尤其[ü]的四声标记,是”符上加符”,不是很清爽。其次,复元音ai,ei,ou,an,ang等的声调标注位置,又有一些硬性规定,难以记忆。
2.更令人感到不便的,是这些声调符号,无法直接在标准键盘上打出。
本案的声调符号只有 [l]、[v]、[k] 3 个,其位置全在韵尾,且可在标准键盘上打出。但是否实用,会否引起别的困扰?有待实验的证明。这是笔者撰写本文、并盼在此求教于网友的原因。
2.4 词长的减短
1.声韵符号的节约
汉语拼音的单元音除了“a o e i u”外,还有 [ü] 和 [ê]。都是有用的,必须可在现行标准键盘上打出,[ü]不妨以[v]代替。[ê]主要用于表示”诶”音,该字属于语气词,似可改读为[ei]。
2.在现代汉语四呼(开口、齐齿、合口、撮口)中,现行<汉语拼音>对于[ü]以及以[ü]为介音的撮口呼,其标注相当混乱,有的作[ü](如nü,lü),有的作[u](ju,qu),有的作[iong](如jiong,qiong)
这是因为在26个英文字母中,找不到适当的元音与[ü]音匹配之故。但在汉语中”撮口呼”是与其它三呼同等重要,必须变通的把原是声母的[v]兼作韵母使用。如此一来,一切便迎刃而解了,请阅下表便可知介音[ü]的标记完全统一了。
以[v]代[ü]以及以[ü]为介音的撮口呼,列之如次:
原 |
nü |
lü |
nüe |
lüe |
采 用 |
新 |
nv |
lv |
nve |
lve |
|
原 |
ju |
jue |
juɑn |
jun |
容 后 再 试 |
新 |
jv |
jve |
jvan |
jvn |
|
原 |
qu |
que |
quɑn |
qun |
|
新 |
qv |
qve |
qvan |
qvn |
|
原 |
xu |
xue |
xuɑn |
xun |
|
新 |
xv |
xve |
xvan |
xvn |
|
原 |
jiong |
qiong |
xiong |
|
|
新 |
jvm |
qvm |
xvm |
|
但这次新式拼音实验,是以<汉语拼音>为基础,不拟变动太大,故实验样本只以[v]取代上表中的[ü]4项,其它暂缓。
3. 我以为“jie、qie、xie” 不妨省略成“je、qe、xe”,一来j、q、x 所表示的声母可认为已含介音[i];二来 ju、qu、xu 其实是jiu、qiu、xiu省略来的。二者具有同一逻辑,说得通的。
此外,J,Q,X与a,ao,an,ang,ong各韵拼合时,介音[i]亦可省略。但 J,Q,X 与[in],[ing][jiu]拼合时,介音[i]不可省略。详如下表所示。
原 |
jia |
jie |
jiao |
jian |
jiang |
jiong |
jing |
jin |
jiu |
新 |
ja |
je |
jao |
jan |
jam |
jom |
jim |
不变 |
不变* |
原 |
qia |
qie |
qiao |
qian |
qiang |
qiong |
qing |
qin |
qiu |
新 |
qa |
qe |
qao |
qan |
qam |
|
qim |
不变 |
不变* |
原 |
xia |
xie |
xiao |
xian |
xiang |
xiong |
xing |
xin |
xiu |
新 |
xa |
xe |
xao |
xan |
xam |
xom |
xim |
不变 |
不变* |
上表其实不难记忆:j,q,x与二个元音相连时,介音[i]可省略。与in,ing,iu相连时则不能省,记住一个音节至少须由一个元音组成;而jiu若省[i],会与ju混同。(*目前[ju]暂不以[jv]取代,故[jiu]的介音)[i]不能省。)
2.多音节词的分隔
<拼音汉字>不像方块汉字那样可以速读,如果音节太多,连写时辨认更加费时,有个解决的办法,是用分隔的符号[-],把它分为2小节,如下例:
多音节词 |
音标 |
音标 (拼音汉字用) |
Ālābó-bàndǎo |
Alabol-bankdaov |
|
Sānbā-fùnǚjiē |
Sanba-fuknvvje |
|
三长两短 |
Sāncháng-liǎng duǎn |
Sanchaml-liamvduanv |
堂堂正正 |
Tángtáng-zhèng zhèng |
Tamltaml-zhemkzhemk |
3.0 <拼音汉字>实验结果的检讨
3.1 <拼音汉字>实验的样本
附件1.是我的<拼音汉字>实验的样本,包括单音节及复音节词二种。
1.单字的样本- 来自各地区的常用字字频统计及现代常用词字种的综合:
1).a.大陆4772字,b.台湾 4841,c.香港 4621字,d. Unihan 2847字,以上各字的综合5726字
2).由<现代汉语常用词集> 56,000词汇中统计字种 5071个
3).从上述二项的交集5049字中选出高频字4562个
2.多音节词样本-<现代汉语常用词集>56,084中抽样选出12170组多音节词,其词长分布如次:
2字词- 10829 |
3字词- 205 |
4字词- 1120 |
5字词- 16 |
3.2多音节词的同音检讨
只有双音节词才有同音,其组成情况如次:
同音词 |
组数 |
个数 |
二词同音的 |
468 |
936 |
三词同音的 |
40 |
120 |
四词同音的 |
7 |
28 |
五词同音的 |
1 |
5 |
同音词共 计 |
516 |
1089 |
同音词共1,089个,占样本总词数(12,170)的9%。
依同音词内涵情况,可分作3类来处理。
1. 第一类同音词,词义类似,可认为”同义异形”词。这类词在汉字词义上虽略有差别,但表达的主要意义相同,故可用同一拉丁字母词表示之,共有45组:
汉语拼音 |
拼音汉字(拟) |
同音词 |
àn dàn |
ankdank |
暗淡,黯淡 |
bào fā |
baokfa |
暴发,爆发 |
bāo hán |
baohanl |
包含,包涵 |
bèi shòu |
beikshouk |
倍受,备受 |
bì xū |
bikxu |
必须,必需 |
biàn xíng |
biankximl |
变形,变型 |
chá fǎng |
chalfamv |
查访,察访 |
chá kàn |
chal kank |
查看,察看 |
chá kān |
chalkan |
查勘,察勘 |
chá yàn |
chalyank |
查验,察验 |
chē péng |
che peml |
车棚,车篷 |
chì mà |
chikmak |
叱骂,斥骂 |
chì zé |
chikzel |
叱责,斥责 |
chú cǎo |
chulcaov |
除草,锄草 |
chù zhì |
chukzhik |
处治,处置 |
chún hòu |
chunlhouk |
淳厚,醇厚 |
chún měi |
chunlmeiv |
纯美,醇美 |
chún pǔ |
chunlpuv |
纯朴,淳朴 |
chún zhèng |
chunlzhemk |
纯正,醇正 |
cuàn gǎi |
cuankgaiv |
篡改,窜改 |
dà xíng |
dakximl |
大刑,大型 |
dāng zuò |
damzuok |
当作,当做 |
dǐ xiāo |
divxiao |
抵消,抵销 |
diào bāo |
diaokbao |
掉包,调包 |
dìng gòu |
dimkgouk |
定购,订购 |
dìng jīn |
dimkjin |
定金,订金 |
dìng xíng |
dimkximl |
定刑,定型 |
dìng zuò |
dimkzuok |
定做,订做 |
è mèng |
ekmemk |
恶梦,噩梦 |
è zhì |
ekzhik |
扼制,遏制 |
fā fèn |
fafenk |
发愤,发奋 |
fǎn zhào |
fanvzhaok |
反照,返照 |
fèn zǐ |
fenkziv |
分子,份子 |
fú tiē |
fultie |
伏贴,服帖 |
gè bié |
gekbiel |
各别,个别 |
gè gè |
gekgek |
各个,个个 |
gōng chǎng |
gomchamv |
工场,工厂 |
gōng xiào |
gomxiaok |
工效,功效 |
guī yī |
guiyi |
皈依,归依 |
hóng zhuāng |
homlzhuam |
红妆,红装 |
hòu zuò |
houkzuok |
后坐,后座 |
huà zhuāng |
huakzhuam |
化妆,化装 |
huán zhàng |
huanlzhamk |
还帐,还账 |
pá zǐ |
palziv |
耙子,筢子 |
yīn liáng |
yinliaml |
阴凉,荫凉 |
2. 第二类同音词,因为词性不同,在组词成句时,因为”位格”(case)不同,从句子结构中,可以辨别两词词义的差异。这类同音词共有 339 组,下表举例说明它们之间的差别。
汉语拼音 |
拼音汉字(拟) |
同音词 |
以例句作说明 |
àn lì |
anklik |
按例 |
按例办理,按例是副词 |
àn lì |
anklik |
案例 |
这是个案例,案例是名词 |
àn qì |
ankqik |
暗泣 |
他悲伤暗泣,暗泣是动词 |
àn qì |
ankqik |
暗器 |
他用暗器伤人,暗器是名词 |
àn shì |
ankshik |
暗示 |
他暗示我…,暗示,动词 |
àn shì |
ankshik |
暗室 |
在暗室内…,暗室,名词 |
bái chī |
bailchi |
白吃 |
他白吃白喝,白吃,动词 |
bái chī |
bailchi |
白痴 |
他是个白痴,白痴,名词 |
bàn dǎo |
bankdaov |
半岛 |
山东半岛…,半岛,名词 |
bàn dǎo |
bankdaov |
绊倒 |
被绳子绊倒,绊倒,动词 |
bàn shì |
bankshik |
半世 |
一生半世…, 副词 |
bàn shì |
bankshik |
办事 |
他办事认真, 动词 |
bào fù |
baokfuk |
抱负 |
他有抱负 |
bào fù |
baokfuk |
报复 |
他用此报复 |
bào fù |
baokfuk |
暴富 |
他投机…因而暴富 |
bǎo jiàn |
baovjiank |
保健 |
我注重保健 |
bǎo jiàn |
baovjiank |
保荐 |
他保荐一个人 |
3. 第三类同音字,词性相同,词义有点相似却是不同,组成句子结构也可能类似,在这种情况下,只有观览文章的上下文,才可能辨别,共有132组,以下是例子:
汉拼 |
拼音汉字(拟) |
同音词 |
běn bù |
benvbuk |
本埠,本部 |
běn yì |
benvyik |
本意,本义 |
biàn huàn |
biankhuank |
变幻,变换 |
biàn yì |
biankyik |
变易,变异 |
biàn zhèng |
biankzhemk |
辨正,辨证 |
bìng lì |
bimklik |
病例,病历 |
bīng yuán |
bimyuanl |
兵员,兵源 |
bǔ yǎng |
buvyamv |
哺养,补养 |
cái lì |
caillik |
才力,财力 |
cái qì |
cailqik |
才气,财气 |
cái wù |
cailwuk |
财物,财务 |
chā huà |
chahuak |
插画,插话 |
chá xún |
chalxunl |
查寻,查询 |
cháng zhù |
chamlzhuk |
常住,常驻 |
chǎng zǐ |
chamvziv |
场子,厂子 |
chéng cái |
chemlcail |
成才,成材 |
chéng xiàn |
chemlxiank |
呈现,呈献 |
chí huǎn |
chilhuanv |
弛缓,迟缓 |
chū bǎn |
chubanv |
出版,初版 |
chū sài |
chusaik |
出赛,初赛 |
chù shì |
chukshik |
处世,处事 |
chū zhàn |
chuzhank |
出战,初战 |
chū zhěn |
chuzhenv |
出诊,初诊 |
dà shì |
dakshik |
大事,大势 |
dài bàn |
daikbank |
代办,待办 |
dài zǐ |
daikziv |
带子,袋子 |
dǎo liú |
daovliul |
倒流,导流 |
dé xìng |
delximk |
德行,德性 |
dī zhì |
dizhik |
低智,低质 |
diàn qì |
diankqik |
电气,电器 |
diào gōu |
diaokgou |
吊钩,钓钩 |
dìng shì |
dimkshik |
定式,定势 |
dú fàn |
dulfank |
毒犯,毒贩 |
fǎ zhì |
favzhik |
法制,法治 |
fán shì |
fanlshik |
凡事,凡是 |
fèi huà |
feikhuak |
费话,废话 |
fèn biàn |
fenkbiank |
分辨,分辩 |
fèn rán |
fenkranl |
愤然,奋然 |
fēng cǎi |
femcaiv |
丰采,风采 |
fēng yān |
femyan |
风烟,烽烟 |
fù běn |
fukbenv |
副本,复本 |
fù yìn |
fukyink |
付印,复印 |
gān zǐ |
ganziv |
柑子,竿子 |
gè wèi |
gekweik |
各位,个位 |
yǐn tuì |
yinvtuik |
引退,隐退 |
hé táng |
heltaml |
河塘,荷塘 |
gōng shāng |
gomsham |
工伤,公伤 |
bào yuàn |
baokyuank |
抱怨,报怨 |
3.3 单音节词同音的统计
单音节词的同音统计有3 个来源:
1. 取自常用高频字(4562),同音字(4232)占93%,同音字分布情况如下表A栏所示。
2. 取自<现代汉语常用词表>中的单音节词(2934),同音字(2774)占83%,如B栏所示。
3.
假定4562字中,大部分(3114)作多音节词,就所余单音节词(1448)统计,其同音字(1107)占76%,如下表C栏所示
每组同音 字数 |
A取自常用高频字4562 |
B取自词表, 2934字 |
C假定词/字分用1448 |
|||
组 |
字数 |
组 |
字数 |
组 |
字数 |
|
17 |
1 |
17 |
/ |
/ |
1 |
17 |
16 |
2 |
32 |
/ |
/ |
/ |
/ |
15 |
3 |
45 |
1 |
15 |
/ |
/ |
14 |
7 |
98 |
2 |
28 |
/ |
/ |
13 |
7 |
91 |
2 |
26 |
1 |
13 |
12 |
9 |
108 |
3 |
36 |
/ |
/ |
11 |
19 |
209 |
2 |
22 |
2 |
22 |
10 |
18 |
180 |
6 |
60 |
1 |
10 |
9 |
31 |
279 |
6 |
54 |
/ |
/ |
8 |
32 |
256 |
15 |
120 |
5 |
40 |
7 |
52 |
364 |
20 |
140 |
5 |
35 |
6 |
78 |
468 |
47 |
282 |
16 |
96 |
5 |
92 |
460 |
56 |
280 |
19 |
95 |
4 |
117 |
468 |
120 |
480 |
56 |
224 |
3 |
156 |
468 |
162 |
486 |
87 |
261 |
2 |
191 |
382 |
250 |
500 |
147 |
294 |
1 |
330 |
330 |
460 |
460 |
341 |
341 |
同音字占比 |
93% |
83% |
76% |
上表 ---
A-栏,只有单字,没有复音节词,故同音占比最大(93%)
B-栏,单字多,复音节词少;同音占比次之(83%)
C-栏,单字少,复音节词多;故同音占比较小(76%)
1.由以上统计可证:汉字缀字成词确实有助于降低同音字的字数,多音节词愈多,同音的占比愈小。虽然多音节词也可能同音,但占比小;以本案统计为例,在双音节词12170个中,同音词只有1089个,占比只有9%。
2.汉字只有1200音节,就5000个常用字言,平均每个字就得分配4-5个同音,对于设计<拼音文字>者言,这是个长期困扰的问题。而由26个字母组成的英文音节数目,不及汉字之半,因此英文须增加音节长度或哑音字母,以避免字形相似。<拼音汉字>是否需要类似的设计,在拼音之外增加意符或词性符号呢?容下文再来讨论。
3. 上表B栏,同音字字例(同音10 字以上的列出):
每组同音字数 |
音标 |
音标(new) |
同音字 |
15 |
yì |
yik |
义亿忆艺议亦异役译易奕益意溢翼 |
14 |
fù |
fuk |
父付妇负附复赴副傅富赋缚腹覆 |
14 |
shì |
shik |
士氏世市式事势视试饰室是释誓 |
13 |
bì |
bik |
币必毕闭毙滗弊碧蔽壁篦避臂 |
13 |
xī |
xi |
夕西吸奚息悉硒稀溪锡熄嘻膝 |
12 |
fú |
ful |
伏凫扶拂服俘氟浮符袱幅福 |
12 |
jì |
jik |
计记妓忌剂季既济偈寄祭冀 |
12 |
jù |
juk |
句巨拒具俱剧惧据距犋锯聚 |
11 |
jí |
jil |
及吉汲级即极亟急疾集辑 |
11 |
yán |
yanl |
延严言岩沿炎研盐阎颜檐 |
10 |
jiàn |
jiank |
见件建剑贱舰溅腱键箭 |
10 |
wèi |
weik |
卫未位味畏胃尉谓喂魏 |
10 |
yù |
yuk |
玉吁育郁狱欲寓遇愈豫 |
10 |
yuán |
yuanl |
员园原圆袁缘塬源猿辕 |
10 |
zhì |
zhik |
至志制治质致掷智痣置 |
10 |
zhù |
zhuk |
住助注驻柱炷祝蛀筑铸 |
4. 汉字单字的同音虽多,但构字成词、组词成文时,这些同音字自然会分散使用。依笔者统计,<现代汉语常用词表> 56,084个词中,单字用了3232个,多音节词用了114,961单字,前者是后者的3%,可见在一篇文章中,单字如能缀字成词,同音的机率并不大。至于实际情况如何,只有在应用时才可知道。
3.4 <拼音汉字>的初步方案(简称初案)
1.初案创立的基础是<汉拼>方案及其正词法,为的是便于二者接轨。因为<汉拼>已流行了50多年,如果创立者在音标之外,附加很多”意符”等尾缀,让读者无法记忆,其可行性会很低。
初案与汉拼不同之处只有:
a.声调符号:从字母带帽换成音节尾缀,第一声不标,以[l,v,k] 标二,三,四声。
b 以[v]代[ü],实际影响的只有 nv(nü)、lv(lü)相关的音节。
c 以[m]取代[ng]。其它省约介音[i]的拟案,如前文2.4.3所述,不在初案中实施。
2. 具体的做法如次:
a.把拟定的样本:多音节词12017个及单音节词2934个,以网络上所得的程序 ---
http://www.bangnishouji.com/tools/hanzipinyin.html转换成<汉语拼音>,这项转换只是逐字标注,对于”多音节词”的音标未见得正确,例如”著名”可能错为zhe míng。故须加校核。
b.以笔者设定的程序,将<汉语拼音>直接自动转成 <新式拼音>:
a.样本 |
a-àb. (程序a) |
b àc. (程序b) |
悲歌 |
bēi gē |
beige |
è zuò jù |
ekzuokjuk |
|
杯弓蛇影 |
bēi gōng shé yǐng |
beigom-shelyimv |
bā yī sān shì biàn |
bayisan-shikbiank |
四音节以上的词,以分隔号[-]分隔
c.初案声调符号(简称调符)以着色斜形字母标示,[l,v,k];等到大家熟悉后,才恢复为不着色的正形字母,以便直接在键盘上打出。
3. 缀字成词时,新式拼音与汉拼一样,相连音节之首是元音时要加分节号[’]
悲哀 |
bēi āi |
bei'ai |
低矮 |
dī ǎi |
di'aiv |
堤岸 |
dī àn |
di'ank |
4. 新的调符,其短处是增加了词长;其长处是简化了调符,并可区隔音节。但阴平不标记,相连音节的首个字母为 [l,k]时,也要加上分节号[’],以使音标与调符分得清楚:
ā lā bó shù mǎ |
a'labol-shukmav |
|
哀哭 |
āi kū |
ai'ku |
巴黎 |
bā lí |
Ba'lil |
包括 |
bāo kuò |
bao'kuok |
玻璃 |
bō lí |
bo'lil |
5. 初案样本以程序自动转换成新式音标之后,尚须将单字音标照”正词法”组合成词的音标,这项工作迄今尚未完成。
同时进行同音词统计及分析,其结果详如前文及如下附件:
附件1. <拼音汉字>实验样本
http://chinese.exponode.com/10_3.htm
附件2. <拼音汉字>同音字的检讨 http://chinese.exponode.com/10_4.htm
3.5 <拼音汉字>需否附加”意符”的讨论
1. <拼音汉字>除标示声调之外,是否需附加词性(名词、动词、形容词…)的区别符?或区别词义用的意符?个人认为方块汉字形符(部首)的表意是自然发展而成的,形符与字义之间有某些通解(Ref.2)。<拼音汉字>附加的意符,只能用拼音字母表示,字母与字义间的映射,完全是设计者主观的指定,很难具有象意作用。这样设定不仅需要读者死记意符的含义,而且扰乱了音标的辨认,增加了词的长度,是得不偿失的。
2.至于词性的标示,例如”按例、案例”是一组同音词(ànlì),前者是副词,后者是名词,如果在名词尾端附加区别符[x],即(ànlìx),似乎是个不错方式。但同一个汉字(词)在不同的句子结构中,可能有不同的词性,或作名词,或作动词,词性的标记似乎不能作为通则来处理。
3.在必要时也许可在词尾附加一个”区别符”,这个”区别符”,与词义及词性都无关,只有词形
的区别作用。它犹如英文的哑音字母;但与哑音字母不同的,它不是固定于某一词上,只是<拼音
汉字>中临时附加的”尾缀”。是否有此需要,有待于日后实验的结果,才能决定。因此初案除音
标外,暂不附加别的尾缀。它可认为是<汉语拼音>第二式。
4.0 结论
4.1 传统汉字与<拼音汉字>相辅相成
1.个人相信以"汉语拼音"为基础的<拼音文字>,如果发展成熟的话,可作为汉字第二式,适用于某些场合。但它不能取代作为主流的方块汉字。举例来说,王维的诗句:”明月松间照,清泉石上流”,”大漠孤烟直,长河落日圆”,犹如画图映在眼前,配以形象化的传统汉字,才能真切的表达了诗的意境。如果用<拼音文字>,定会失色不少。
2.另一方面,传统汉字的优化,例如,全球通用汉字字形标准化(定形);多音读汉字的定音……,这些改进措施,必将有利于<汉字第二式>的完善。二者相辅相成,各有所用。
4.2 <拼音汉字>的可行性
1.正如笔者在前文所述,<拼音汉字>的设计,重在声调的标记与词长的节约,这二者是相互矛盾、而必需综合考量的。至若同音问题,大部分要靠句子结构以及上下文的连系来解决的。最重要的一点是<拼音汉字>的使用范围,应限定在现代汉语一般社会交际上,尽可能避免使用带有文言性质的词汇。例如把”按例”说成”按往例”的三字词,就可与二字词的”案例”区别了。
2. 初案设计的基础是汉语拼音,只是在标示声调或声韵方面,有些更改。前文已说过,现行的<汉语拼音>其实已具有”半文字”的实力,只因声调标记较复杂,又不能直接在标准键盘上打出,给人们带来不便,因此不易推广使用。初案的声调符号只有
[l]、[v]、[k] 3 个,其位置全在韵尾。为使调号与音标较易辨别,试验初期调号[l]、[v]、[k]采用着色斜形字母,等到大家熟习之后就可同用正形字母了。
3.本实验用的样本,列出12,170 个复音节词,其中三音节以上的词有1340个,没有一个词是同音的。二音节词共10,830个;同音词1089个,只占9%。看来同音问题并不如想象中那么严重。对于一般的使用者来说,掌握3000-3500个<拼音汉字>的词,应可表达一般生活领域的社会信息,传达现代人的思想感情。
4.要之,把<拼音汉字>设想的目标降低,把它当作辅助性的文字,它的可行性是存在的,值得一边实验一边改进的。但任何文字拟案的实验,须有一定的规模(例如在一个小学班级内试行),而这必须由相关当局认可后才能办到。--- 无论如何,先把改进后的本案当作<汉拼第二式>试用吧。
参考:
Ref-1:现代汉语常用词汇50,084 http://chinese.exponode.com/10_5.htm
Ref-2: 部首与字义 http://chinese.exponode.com/1_5j.htm
5.0 写后杂记
我写了本文后的一些补遗,或点滴感想,概汇入此章。随想随记,随时贴出。
1. 如果说<拼音汉字>只是辅助性的<汉字第二式>,或<汉语拼音>的另一式;对传统汉字的发展,有益无害;那么本论谭是否可开放讨论,不必把它当作敏感性的主题?
2. 据称所谓<拼音汉字>的拟案,多达六百种,(有心人何其多?)我所拟的”初案”,不过是六百分之一,而且未见得完善。我在此贴出,意在抛砖引玉,期盼先行者给予批评指导。
3. 正如前文所述,<新式汉拼>是以程序将<现行汉拼>自动转成的。近日我曾尝试新、旧二式拼音的互转,亦即把<新式拼音>转回<现行汉拼>,与原样比较结果,只有一点不同:<现行汉拼>阴平注音(如ā…),轻声的不注(如a…);转回后,阴平、轻声一同注音((如ā…)。我之所以把轻声视同阴平,因我认为轻声是一种语气,于说话有用,于文章可忽视,它不算是声调之一。这是一种化繁为简的做法,我肯定、新旧拼音互转的结果,不想再去改它。
4. 任何文字方案是否可行,关键在于先要”约定”,而后才能”俗成”。所谓”约定”即有个公认的追随标准,亦即这方案是大家所共同认可的;而这非由文教当局规范不可。假定当局就众多方案中,择优选定一个,像公布汉字规范一样,公布3500个左右的<拼音汉字规范>,供大家试用。在试用期中去发现问题,再逐一想法解决。--- 民间拟定的方案,如果没有闯过这一关,则永远只是纸上谈兵。
5. 至于当局是否关注这桩事,则在于社会是否有此需求。个人认为在网络沟通流行的今天,<汉字第二式>的创立,实有必要。它不仅给人们多一种表达方式的选择;而且正如本文1.3节所述,它有很多正面功能。另一方面,它也可能抑制网上”火星文”* 的散播,防止传统汉字被污染。
* 中式”火星文”之例,请参见维基百科;西方也有火星文,例如:”Gr8 2c U”…。年轻人把它当作一种文字游戏,偶而为之则可。若把它当作通讯工具,则有负面作用。许多学生家长认为,火星文会造成儿女作文方面的不良后果,影响国语文的教学。
6. 近日读了王理嘉的<汉语拼音方案理论释要>,其中颇有发人深省者,摘要之后,并略述个人感想如次:
a. 赵元任两次提到用[v]取代元音[y],而不必顾忌这样做违反了西文的习惯。---此处[y]指[ü],本文即主张辅音[v]兼代元音[ü]。
b. “文字尚形”原则:西人看书识字的时候,和中国人一样,并不是先读出声音才认字的,而是凭”视觉认字”的。因此首要原则是:音节的拼写形式(字形)清楚醒目;不是音素的精确(太精确反而不适用)。例如采用[ao],不用[au],以免与[an]混同;采用[ou],不用[eu],以免与[en]混同;以[iong]代[üng],以[ong]代[ung],都是增加字形的辨别度。---设计拼音文字者应把”字形清楚醒目”当作座右铭。
c.周有光说:音节拼写设计务求音节醒目,书写方便。--- 本案把声调符号从元音戴帽换成尾缀”l,v,k”,以便书写。
d. 字形分辨无碍时可省略:iou-->iu,uei-->ui,uen-->un,---这是节省词长。可见当初先贤设计<汉语拼音>时各方面都有平衡的周全的考量,这就是为何笔者主张<拼音汉字>的设计应以<汉语拼音>为基础的缘故。
7. 前述王先生论文还提到:<汉语拼音>不是为音韵家设计,而是为一般民众用的。凡用罗马(拉丁)字母的国家,在拼写系统中都用字母变读法,来解决26个字母不足问题。---这不是音韵家的审音不重要,(他们的审音是在树立一个基准);而是当理论层面下放至实用层面时,配合”文字尚形”原则,必须在音韵基准上作些修正。我想不仅语文学科如此,其它学科亦同,在理论与实际应用之间会有些宽裕度(allowance)
8 对于<拼音汉字>的设计,可能下的总结有二点:
其一,洋为中用:例如,汉词的词性(名词、动词…)在词形上没有差别,但在特殊的情况下,亦可考量是否加上一个区分词性的尾缀。又如辅音[v]兼作元音,则是拉丁字母、中式音韵的活用。
其二,舍古从今:<拼音汉字>应尽可能使用现代汉语。组词时宜少用典故,尤其那些与历史人物故事相关的成语,都是一些简洁的语辞,直接音译,难以达意。例如,不说”助纣为虐”,而说”帮坏人做坏事”,同样表达了这一成语的语意。
附注:
1.Y&W, 汉语拼音方案规定零声母开头的音节,要分别使用隔音字母y和w。(不变)
2. iou、uei、uen, 和声母相拼时,要去掉中间的元音字母,写为iu、ui、un。(不变)
3. ü ,汉语拼音方案规定,当j、q、x和ü相拼时,ü上的两点要省去,当n、l和ü相拼时,ü上的两点不能省去。(用v代ü)
4 调号,要标在韵母上。二合前响复韵母,调号标在前一个元音上,如bāi、bēi; 二合后响复韵母,调号标在后一个元音上,如jiā、ɡuó;三合复韵母,调号标在中间的元音上,如jiāo、ɡuāi。iu、ui的调号标在后一个元音上,un的标号标在前一个元音上。如 niú、ɡuī(归)、lùn
(介音i,u不标声调,音节至少须有元音)
5.汉语拼音正词法:
a.表示一个整体概念的双音节和三音节结构,连写。例如:ɡānɡtiě(钢铁)、hónɡqí(红旗)、duìbuqǐ(对不起)、chīdexiāo(吃得消)。
b.四音节以上表示一个整体概念的名称,按词(或语节)分开写,不能按词(或语节)划分的,全都连写。例如:wúfènɡ ɡānɡɡuǎn(无缝钢管)、Zhōnɡhuá Rénmín Gònɡhéɡuó(中华人民共和国)、hónɡshízìhuì(红十字会)
6. 调号unicode
ā |
á |
ǎ |
à |
ō |
ó |
ǒ |
ò |
ē |
é |
ě |
è |
0101 |
00E1 |
01CE |
00E0 |
014D |
00F3 |
01D2 |
00F2 |
0113 |
00E9 |
011B |
00E8 |