简繁非对称字组的自动转译实验

 1.0提要  2.0自动转译实验的方式及结果  3.0自动转译对照表的调整  4.0可删除的异体字拟案 

5.0后记与结语  6.0 附表

1.0 提要

1.1 定义:本文所谓繁体,泛指台湾规范字,简体泛指大陆规范字。非对称的简繁对应也包括异体关系,笔者刻意不予区分,因为无论它们的关系如何,其解决的方式一样,须化非对称一对一的对应。

1.2 文本:各家得出的非对称字组数量有相当差异,其原因除上述简繁关系与异体关系或合或分之外,还有就是各人所依据的文本资料不同。笔者是以大陆规范<现代汉语通用字表>7000字,以及台湾规范CNS11643常用字5401为基本。加上为求二者对应而采录的1700多个台湾次常用字,合计文本字数7376字组,共得非对称270字组(一简对二繁240,一对三以上30),字组数量曾依实际情况更新,并用简繁自动对译一一验证无误。

1.3 自动转译的实验:因为非对称字组中包括不少异体关系。要解决此项问题,使两岸文字成为一对一的对称,必须澈底解决异体字的纷歧,甚至需要两岸文字规范的统合。但这并非短期内能达到的目标。目前海峡两岸交往频繁,简繁字的转译全赖计算机自动转换。以短程目标而言,如果自动对译时没有误译,则即使存在非对称字组,也不至于影响文意的正确传达。基于这个理念,笔者作了全部270字组自动转译的实验(详文末附表),并假定完全没有词汇的智能设计。转译实验的结果显示:繁转简时,都没有误译,非对称字组皆可保持现状。简转繁时,大部分字组,也没有误译,只有18字组的字须作改变。

2.0 自动转译实验的方式及结果

2.1 实验的方式:就一简对二繁言,某一简体字(代号J )对应了二个繁体(代号F1,F2),设”>”表示简繁或简繁自动转译,则第一步:J > F1 > J ,第二步:F2 > J ,经过转译后,如果3个简体字”J”完全相同,则表示繁转简应该没有问题。而一对多的字组则照上述方式,续作繁转简的对译,即F3>JF4>J,…。至于简转繁的对译有否误译,则除观察上述结果之外,还要考量日常用词问題。例如:郁>>郁,郁>郁,转译后3 个简体字J ()完全相同,但郁是姓氏,就可能有:郁某人>鬱某人 的误译。(实验时完全不考虑软件的智能设计)。因此繁体应加以处理,因笔画太多,与其由大陆规范增添,不如由台湾规范取消,并认同简化字的现行字义,以郁代鬱。目前台湾书局销售简体书籍的不少,台湾民众认识简化字也相当多,相信个别字的取代应是可行。其实台湾现行规范也不必改订,只要简繁转译时,简化字保持原字形就可。

2.2 实验所得结果:在非对称”270字组中,就一般应用言,繁转简几乎全无问题。这是因为一对多中的繁体对应的都是相同的简体字。例如:繁体对应简体,勣为异体,但对应的简体也是。繁体词汇成績、功勣转译为成绩、功绩,文意没有改变。另一方面,在简转繁时,在270”非对称字组中,虽然大部分没有问题,其理由与上述同。但却有18字组(7%)须作一些更改,否则就会有错译出现。例如:卜卦>蔔卦,丁丑>丁醜,划船>劃船…。须更改的非对称字组,如表1. 所示。

1.  非对称字组须改进的-18  (为免错译)

非对称字组

繁译简(无误)

简译繁(误译)

J

F1

J

F2>J

建议: +()

/蔔卜:

卜挂>卜挂

卜挂>蔔掛

>

[陆规]+

/醜丑:

丁丑>丁丑

丁丑>丁醜

>

[陆规] +

/鬥斗:

五斗>五斗

五斗>五鬥

>

[陆规] +or[门斗]

/發髮:

梳頭髮>梳头发

梳头发>梳頭發

>

[陆规]+or[发彡]

/範范:

范某人>范某人

范某人>某人

>

[台规]以范代範

/複復:

復興>复兴

复兴>複興

>

[陆规] +

/穀谷:

山之谷>山之谷

山之谷>山之穀

>

[陆规]+

/後后:

皇后>皇后

皇后>皇後

>

[陆规]+

/劃划:

划船>划船

划船>劃船

>

[台规]以划代

/壞坏:

陶坏>陶坏

陶坏>陶壞

>

[台规]改作

/幾几:

茶几>茶几

茶几>茶幾,

>

[台规]代幾

/薑姜:

姜某人>姜某人

姜某人>薑某

>

[陆规]+

/裏里:

6里遠>6里远

6里远>6裏遠

>

[陆规]+or裹

/曆歷:

歷經>历经

历经>曆經

>

[陆规]+

/, /么

么喝>么喝

么喝>麼喝

>

[]么应改作

/鹹咸:

咸豐>咸丰

咸丰>鹹豐

>

[陆规]+ []

/鬱郁:

憂鬱>忧郁

郁先生>鬱先生

>

[]以郁代鬱

/幹榦干:

干與>干与

干与>幹與

>

[陆规]+

此外,为求文意表达准确,有6个字须作改进,如下表所示。

/並併并:并vs并/並,副词

(如併),动词,另列

[]+

/局侷跼:局vs局/侷

,曲身,宜另列

[]+

/蒙濛矇:蒙vs蒙/矇/懞

(濛濛细雨),另列

[]+

/台臺檯颱:台vs 臺檯 

(颱风与台风有别)

+[]

/系係繫:系vs系/繫  

係有”乃”义,宜另列

[]+

/只隻衹:衹/只; [qi2]僧衣

/隻对应, 衹另列

[]+

 

由上表可知,大陆规范须增加12字:蔔、鬥、醜、髮、復、穀、後、薑、裡、歷、鹹、幹。它们可恢复为繁体,有的亦可简作其它字形,如:

a.    鬥,亦可改作[门斗],以便书写。

b.    髮,亦可简作[发彡],新的形声字,[]用作声符,[]用作形符,类如的形符。

c.    後,常有皇後等的错译,简转繁对译时不妨直接以后代後 (即两岸同用表後义)

d.    穀,可照壳的方式予以简化。

e.    鹹,形旁鹵可类推简化作卤,以省笔画。

f.    幹,亦可取”幹”的右旁。

台湾规范字要改的6字:範、劃、幾、鬱、坏、么 ----

a.       繁体 範、劃、幾、鬱 笔画太多,应从简,即使用 范、划、几、郁,以与简体一一对应。

b.      繁体的异体,又是的简体,二者形同而音义互异,故宜用坯代坏,坏专用作壞的简体。

c.       繁体”[yao]的简体是,而同形的[mo]又作为麼的简体,形同而音义互异,故繁体”[yao]应改作,以与简体作对应。

3.0  自动转译对照表的调整(举例说明)

目前简繁自动转译在市场上有不同的软件,但所依据的是大家公认的一个简繁对照表。笔者在作自动转译实验时,发现这个对照表的一些字组,若能作合理的变更,对解决非对称问题,有所助益。所谓合理的变更,可举例说明之。例如,简体既有象声词咚,繁体鼕对应的应是咚,而非冬。又如 /薦荐,薦虽常用,其实是荐的异体,因此简体荐宜对应同一字形的荐,荐易写易认。须更正的自动转译的字组共31个字例,如下表所示。表中最后一栏注明更正的理由。理由共有六项:

  a. 原译字为繁体字异体    b.新译字与简体字同形或对应   c.新译字可免二义性误译   

d.改正原译字错误         e. 新译字结构简单            f. 新译字具有形声功能

 

   2.   简繁转译时现译字的更正 (31)

非对称字

          

原译

新译

理由

1

/癡痴

,台规异体;,形声兼意,两岸共作规范

a,b, e,f

2

/蟲虫

虫义同蟲,虫另有虺(hui3)

b,e

3

/咚鼕

象声不宜用冬, 鼕vs咚

b,d

4

/黨党

,本义为黝黑;,本义地方组织,更近今义

b,e

5

/燉炖

炖义含燉(煮)

b,e

6

/掛挂

掛为挂或体

a,b.

7

/饑飢

从简;/飢对应较佳

b,e

8

/彙匯

汇可兼彙义,汇与匯对等对应

b,e,f

9

/薦荐

,台湾规范的异体, 两岸共用荐为规范

a. b. e.

10

/據据

据除含據义外,尚有拮据,含义较广

b,c,

11

/黴霉

,异体,两岸同用霉为规范字

a. b. f

12

/撚捻

,以指搓,捏; 说文作撚

b. e. f

13

/齧嚙

,同啮

b. e

14

/確确

, 说文作确,徐铉:今俗作確,非是

b. f

15

/曬晒

,台湾规范的异体

a. b. e.

16

/屍尸

尸含屍义

b. e.

17

/歎嘆

,或体

a. b.

18

/體体

从简,體不用; 两岸共用体为规范

b. e.

19

/萬万

,台湾规范次常用字,但亦常见

b. e.

20

/汙污

,或体但污常用

b.

21

/籲吁

从简,籲不用

b. e.

22

/勳勛

,台湾规范的异体

a. b. e.

23

/願愿

愿义同願, 形符心较能表意

b. e

24

/豔艷

台湾规范艷为豔异体,但字理明白

b.

25

/藥葯

,台规次常用字,但药亦常见

b.

26

/嶽岳

,异体; 用岳可免岳飞译成嶽飞

b. c.

27

/雲云

,累增,云兼雲義; 孔子云>孔子雲,错译

b. c.

28

/湧涌

涌为湧或体;取涌舍湧

b. e

29

/證証

在凭证/验证上,证證相通

b. e.

30

/塚冢

,累增

b. e

31

/嫋嬝裊

台规裊/嬝常用;嫋,次常用

b. e

 

这样在二()个繁体中选用一个较佳的字,与简体配对,等于为传统汉字做了一番文字整理工作。原用字(如癡)目前字频可能较大,择优选用()之后,由于网络的频繁转译,新译字()渐渐取了优势,而为大家所乐用。这不仅解决了简繁的非对称问题,更有优化汉字的作用。痴(病于知)比癡,不仅更符合字理,而且结构简单,易于分析与编码。

4.0 可删除的异体字拟案

4.1 前文己说明,要澈底解决简繁非对称的问题,必须使它们一对一的对应,亦即在多繁”中删除异体,或把非异体”的字加入大陆规范中。如果甲乙二字的字义全合(犹如二个同心等径的圆),则为迭合异体;如果甲字的字义包括了乙字(大圆含着小圆),则为包孕异体;这二种情况都可取一舍一。很多情形是甲乙二字的字义有交叉但并不全等(二圆互交),就要二字并取。异体字的研究因涉及古书的训诂,是很费力而难精确的事。笔者浅陋,只举出一些字例作尝试。尚请方家给予指正

3. 拟删除的异体字组93

非对称字说明

拟删字

非对称字说明

拟删字

/杯盃:盃或体

/嘗嚐:嘗含嚐(试味)义

/吃喫:喫,或体

/錘鎚:鎚为锤或体

/棰箠:箠为棰或体

/堤隄:隄,或体

/唇脣:脣,或体

/掛挂:掛为挂或体

/焊銲:銲通焊(接)

/績勣:勣,或体  

/嘩譁:譁,或体

/跡蹟:蹟为跡的或体

/鑒鑑:鑑义己为鉴/镜义取代

/盡儘:儘累增

/剿勦:勦为剿或体 

/浚濬:从简, 濬不用

/坑阬:阬,或体

/漓灕:漓义含灕 ,灕罕用

/璃琍:琍,异体

/簾帘:簾,异体

/梁樑:梁义含;梁兄>樑,错译

/爐鑪:鑪,或体

/菱蔆:蔆为菱本字

/黴霉:黴,异体

/秘祕:秘,或体

/娘孃:孃,或体

/乃迺:迺,或体

/盤槃:槃,异体;繁体盤有形声功能

/炮砲:砲,或体

/強彊:彊,或体

/戚慼:戚可慼义

/箬篛:篛,或体

/剩賸:賸,异体

/搜蒐:蒐,异体

湿/溼濕:溼,或体

/蓑簑:簑,异体

/歎嘆:歎,或体

/眺覜:覜,异体

/藤籐:籐,异体

/溪谿:谿,异体

谿

/嘻譆:譆为嘻异体(同指赞叹声)

/弦絃:絃,异体

/銜啣:衔义含啣; 头衔>头啣;错译  

/閑閒:閒,异体

/筱篠:集韵:筱或作篠

/恤卹:卹,或体

/泄洩:洩,或体

/煙菸:菸,今字作煙

/岩巖:岩,会意;巖,形声; 岩同巖

/肴餚:餚,累增; 餚同肴

/焰燄:燄异体

/迤迆:迆,异体

/咱喒:喒,异体

/棹櫂:櫂为棹或体;棹义含櫂

/占佔:佔,累增;占义含佔

/背揹:揹动词,背可

/別彆:彆,弓末曲處; 别扭=彆扭

/出齣:出可兼齣义

/彩綵:彩义含綵义(色彩,彩衣)

/杆桿:从简,桿不用;,声符合字音

/杠槓:从简,槓不用?

/克剋:剋,累增, 克兼剋义

/卷捲:捲,累增,卷兼捲义

/累纍:累含纍义; 纍,台规次常用字

/鹵滷:繁体鹵又作滷,滷异体

/念唸:念可兼

/球毬:毬,今字作球

/虱蝨:蝨,字亦作虱(或体)

/席蓆:席含

/熏燻:熏燻義

/效傚:傚,累增

/咽嚥:咽义含嚥(yan4,吞)

/揚颺:扬含颺(飘扬)

/照炤:照含炤(明,耀)义

/沾霑:沾含霑义(浸湿,附着,沾光)

/致緻:致含(精细)

/塚冢:塚,同冢

/贊讚:贊(称赞,一种文体)

/殷慇:殷含

/築筑:筑含築义(建造); 筑另作地名

/注註:注含註义(批注,附记,登记)

/泛氾汎:汎,氾或体;          

/氾

/刨鉋鑤:刨可兼动(刨)名(鉋)词

/捆梱綑:綑通捆, ,名词,捆动词

/嫋嬝裊:裊/嬝常用;嫋,次常

/嫋

/蘇甦囌:甦为异体

/甦

/升昇陞:升含昇/陞義

/陞

/愈瘉癒:愈含瘉/癒义           

/癒

4.2 异体字研究不易(举例说明)

<汉语大字典>查得 累/纍 的古今字义如次,每一义都引录古籍字句来说明(在此均省略)

累:lei3 -1)堆积,2)连续,屡次,3)重迭,4)增加,5)拖累,6)合计,7),计量单位,8)转行貌,9)通裸,10)

lei2-1)绳索, 亦作缧,2)拘捆,3)同交配期牡牛

lei4- 1)负担;2)伤害,3)嘱托,4)罪行,5)缺陷,6)忧患,7)疲劳,8),9),10)指妻子与资产,11)亏欠,12)缠绕

lv4- 古匈奴官名   

lie4-地名

纍:lei2-1)连缀,2)绳索,亦作缧,3)缠绕,4)拘捆,5)无罪而被迫致死,6)延及,7)联络貌,8)盛甲的器具,9)公牛,10)

lei3-同累;堆积,重迭

lei4-同累;拖累

 

<汉字形义分析字典>则着重今义解释,并表示纍是累的包孕异体,查得:累 [b] 字义----

a. lei4:疲劳

b. lei21)累赘 2)累累成串的

c. lei31)堆积 2)连续,多次 3)牵连

 

笔者相信的原字形是,声符兼意,表示累赘、连绵;犹如雷的原字形是[/],雷声隆隆,连续重迭。但雷的原字形被淘汰,而累的原字形[纍]与累并存。在并存期中古人或用累或用纍,以致有<汉语大字典>那样纷歧的音义释解。因此,若从古今字义去判断,累/纍似应分列为二字,但若着重今义,则纍是累的包孕异体。

假定书同文的目标是5000个通用字,笔者主张,核定异体字不妨从宽,也就是应着重今义,使较多的异体淘汰。所谓淘汰是使它离开通用字集,回到汉字的备用字库,让专家学者在必要时访问它。台湾文字学家赵友培说:字无生死,只有存废,便是这个意思。偏爱繁体字的网友,大可放心吧。

 

5.0 后记与结语

5.1 本文非对称”270字组与Ref-1原稿有差异的原因

其一是原稿中非对称字组,经香港胡百华先生引用后,增添了原稿未录的台湾次常用字,计17字组。其二是大陆通用字自1989出版之后可能有些修订,而此修订版已反映在自动转译的软件中。这些修订也使一部分非对称字组,成为一对一的对称,亦即自动转译时,摆/擺、襬/襬、嗔/嗔、瞋/瞋、圭/圭、珪/珪、沈/沈、渖/瀋 …,参见下表(23组,可用自动转译尝试,每组第3 字都有相当的简体对应)

/

/

/嗔瞋

/圭珪

/筋觔

/淋痳

/憫愍

/你妳

/碰踫

/

/鉗拑

/槍鎗

/熔鎔

/薯藷

/嵩崧

/鑲瓖

/移迻

/沄澐

/胄冑

/資貲

/咨諮

/沈

/牠祂

 

 

5.2  待改进的18非对称字组的分析:

兹将前文2.0 节 表1. 所列待改进的字组归纳之如次表:

/蔔卜:

/醜丑:

/鬥斗:

/發髮:

/範范:

/, /么

/複復:

/穀谷:

/後后:

/劃划:

/壞坏:

/幾几:

/薑姜:

/裏里:

/曆歷:

/幹榦干

/鹹咸:

/鬱郁:

详细观察各组的简繁体字义,发现它们之间少有观念上的联系,大多只是近音代替。勉强的说,小陋相近,计劃”与划”算沾边,史 与 法 有些联系。躯与 树在主体的意义上相关,写 与 写 在动作上似乎相通。草木茂盛为,文采美盛为郁”,在繁盛的形象上相似;但 忧鬱 与郁馥”给人的感觉却是相反。因此严格说来,18个字组中,只有/有包孕的异体关系。
然而我们不宜全然用传统字的语境(港台)去思考这些词义的差别,毕竟简化字已风行了半个多世纪,近音代替”的字词涵义己经约定俗成。今天认为它们必须改进的原因,主要还是在对译时发生了歧义。假如我们认同在简化字语境下的词义,即:卜兼蔔义,斗兼鬥义,丑兼醜义,范兼範义,后兼後义,划兼劃义,几兼幾义,姜兼薑义,里兼裏义,谷兼穀义,咸兼鹹义,郁兼鬱义。亦即在简转繁”对译时,仍保留它们原来的简体字形,是否可行呢?笔者认为在相当时间内,恐难为港台民众所接受,因此,仍建议大陆规范增加这些字以使简繁能一对一对应。
 
5.3 结语

经过简繁自动转译的实验后,得到如下结果:

1. “繁转简自动对译 ---即使存在非对称字组,亦极少有错译问题,笔者多年来的实践也证明了这一点。

2. “简转繁自动对译 ---大部分没有问题,只有18个字组有误译的情况,有待改进 (详表1.)

3.  31个现译的字组若能作一些合理的变更,选择一个适当对应的繁体字,对解决非对称问题,有所助益 (详表2 )

4.  异体问题的研究相当不易,笔者建议着重在今义的分析。为达到书同文(5000通用字)的目标,古义或罕用义暂可忽略。笔者拟议删除的 93个异体字(详表3)是否妥适,尚待方家给予审阅并指正。

5.  非对称270字组中,本文已提出建议的共148 (=18+6+31+93) 组,尚余122组是待决的异体问题。

 

笔者生长在繁体字的语境中,迄今仍习惯使用繁体打字。在网站上发表的简体文章,完全是自动转译而成的。多年来实践的经验,得知”繁转简”的文本极少出问题。出问题的还是一些词汇的不当转译,例如繁体字元”译作简体字符”,有违笔者的原意。由此可知智能设计的功能有其限度,而简繁非对称问题的解决,根本之道还是自改进两岸文字规范本身着手。

 

Ref.1 李牧<两岸汉字字形的比较与分析,《汉字书同文》第6(pp.33-56),2005

Ref.2 胡百华<汉字简一繁多对应表>香港語文建設通訊10/2008 - http://www.huayuqiao.org/

 

6.0 附表

 

附表1.  非对称字组自动转译实验(一简对二繁,120,240)

 1). 表内 若简体字形 A=C=E,表示 繁转简没有问题。

2). 若简体A=繁体B或其对等字形(如锤/),则简转繁问题亦少。由此可知有些字组最好能更换简繁对应字,例如现译 啮/齧,宜改译为 啮/嚙。

  字组

J>F1> J

F2 >J

 

A

B

C

D

E

/庵菴:

/板闆:

/杯盃:

/背揹:

/表錶:

/別彆:

/蔔卜:

/布佈:

/采採:

/彩綵:

/鏟剷:

/嘗嚐:

/厂廠;

/吃喫:

/癡痴:

/沖衝:

/蟲虫:

/醜丑:

/出齣:

/錘鎚:

/棰箠:

/唇脣:

/啖啗:

/當噹:

/黨党

/蕩盪:

/堤隄:

/抵牴:

/澱淀

/雕彫:

/吊弔:

/咚鼕:

/鬥斗:

/燉炖:

/惡噁

/兒儿:

/發髮:

/翻繙:

/範范:

仿/仿倣:

仿

仿

仿

仿

/豐丰:

/佛彿:

彿

/夫伕:

/複復:

/杆桿:

/杠槓:

/個箇:

/構搆:

/穀谷

/雇僱:

/刮颳:

/掛挂:

/拐枴:

/櫃柜:

/焊銲:

/合閤:

/

/後后:

/胡鬍:

/劃划: