从自动转译的实践中考量非对称字的解决拟案

1.0 概要

近年来大家对于繁简非对称字组的解决拟案,十分关心,笔者也有一些文章谈到这个问题。因为非对称字组中除部分是繁简对应外,大多是异体关系。要解决此项问题,使两岸文字成为一对一的对称,必须澈底解决异体字的纷歧,甚至需要两岸文字规范的统合。但这并非短期内能达到的目标。目前海峡两岸交往频繁,繁简字的对译全赖计算机自动转换。如果自动对译时没有误译,则即使存在非对称字组,也不至于影响文意的正确传达。基于这个理念,笔者作了自动转译的实验,所得结果尚令人认可。在非对称”272字组 (”一简对二繁”242一对三以上”30) 中,只需19(7%)须作一些更改。转译实验并假定完全没有词汇的智能设计。

另一个实验的结果是,在现有情况下,就一般应用言,繁转简几乎全无问题。这是因为一对多中的繁体对应的都是相同的简体字。例如:繁体对应简体,勣为异体,但对应的简体也是。繁体词汇成績、功勣转译为成绩、功绩,文意没有改变。

简转繁时,在272”非对称字组中,虽然大部分没有问题,其理由与上述同。但却有19字组须作一些更改,否则就会有错译出现。例如:卜卦>蔔卦,丁丑>丁醜,划船>劃船…。至于须更改的非对称字组的范围及方式,详如表1. 所示。

1.  非对称字组须改进的-19 

非对称字组

繁译简(无误)

简译繁(误译)

J

F1

J

F2>J

建议: +

/蔔卜:

卜挂>卜挂

卜挂>蔔掛

>

[陆规]+

/咚鼕:

鼕鼕聲>冬冬声

冬冬声>冬冬聲

>

(宜译作咚)

/鬥斗:

五斗>五斗

五斗>五鬥

>

[] +or[门斗]

/醜丑:

丁丑>丁丑

丁丑>丁醜

>

[陆规] +

/發髮:

梳頭髮>梳头发

梳头发>梳頭發

>

[]+or[发彡]

/範范:

范某人>范某人

范某人>某人

>

[台规]以范代範

/複復:

復興>复兴

复兴>複興

>

[陆规] +

/穀谷:

山之谷>山之谷

山之谷>山之穀

>

[陆规]+

/後后:

皇后>皇后

皇后>皇後

>

[陆规]+

/劃划:

划船>划船

划船>劃船

>

[台规]以划代

/壞坏:

陶坏>陶坏

陶坏>陶壞

>

[台规]改作

/幾几:

茶几>茶几

茶几>茶幾,

>

[台规]代幾

/薑姜:

姜某>姜某

姜某>薑某,

>

[陆规]+

/堥翩G

6里遠>6里远

6里远>6婸

>

[陆规]+or裹

/曆歷:

歷經>历经

历经>曆經

>

[陆规]+

/, /么

么喝>么喝

么喝>麼喝

>

[]应改作

/鹹咸:

咸豐>咸丰

老少咸宜>老少鹹宜

>

[陆规]+

/鬱郁:

憂鬱>忧郁

郁某>鬱某,

>

[]以郁代鬱

/幹榦干:

干與>干与

干与>幹與

>

[陆规]+

2.0 自动转译的实验及其结果

2.1 自动转译的实验文本:主要参考李牧的二篇论文(Ref.1, Ref.2),以及胡百华的一篇文章(Ref.3),为节省版幅,李文原稿有所删节。胡文是李文原稿(Ref.1)的补充及批注。

2.2 实验的方式:就一简对二繁言,某一简体字(代号J )对应了二个繁体(代号F1,F2),设”>”表示繁简或简繁自动对译,则第一步:J > F1 > J ,第二步:F2 > J ,经过对译后,如果3个简体字”J”完全相同,则表示繁转简应该没有问题。而一对多的字组则照上述方式,续作繁转简的对译,即F3>JF4>J,…。至于简转繁的对译有否误译,则除观察上述结果之外,还要考量日常用词问題。例如--->>郁,郁>郁,转译后3 个简体字J ()完全相同,但郁是姓氏,就可能有:郁某人>鬱某人 的误译。(实验时完全不考虑软件的智能设计)。因此繁体应加以处理,因笔画太多,与其由大陆规范增添,不如由台湾规范取消,并认同简化字的现行字义,以郁代鬱。目前台湾书局销售简体书籍的不少,台湾民众认识简化字也相当多,相信这样取代应是可行。其实台湾现行规范也不必改订,只要简繁对译时,简化字保持原字形就可。

2.3 实验的结果:

1).如表2. 及表3. 所示,合计272字组。繁转简时,都没有误译,非对称字组皆可保持现状。简转繁时,大部分字组,也没有误译,只有19字组的字须作改变,己如1.0所述。

2.)在那须改进的19字组中依其更改方式,又可分为如下3类:

A. 大陆规范须增加的12字:蔔、鬥、醜、髮、復、穀、後、薑、裡、歷、鹹、幹,可保持繁体形式,但亦可简作其它字形,例如:

a.    鬥,亦可改作[门斗],以便书写。

b.    髮,亦可简作[发彡],新的形声字,[]用作声符,[]用作形符,类如的形符。

c.    後,常有皇後等的错译,简转繁对译时可否直接以后代後?(即不用作为规范字)

d.    ,亦可予以简化,取字的上部。

e.    鹹,可类推简化,以省笔画。

f.    幹,亦可取”幹”的右旁。

B. 台湾规范字要改的6字:範、劃、幾、鬱、坏、么 ----

a. 繁体 範、劃、幾、鬱 笔画太多,应从简,即使用 范、划、几、郁,以与简体一一对应。

b繁体的异体,又是的简体,二者形同而音义互异,故宜用坯代坏,坏专用作壞的简体。

c.繁体”[yao]的简体是,而同形的[mo]又作为麼的简体,形同而音义互异,故繁体应改作,以与简体作 对应。

C. 自动转译要更正的1字:鼕的简体应作咚,简体既有象声词咚,就不必用冬代替了。                                                                                                                                                

2.  非对称: 一简对二繁 (242)

李牧原稿 (参见ref.1&2)                           

胡百华批注(大要,ref.3)

>

李 牧 建 议

J / F1 F2: 说明           >表转择

{ }李牧添注

J

F1

J

F2>J

+增加, / =暂不变

/庵菴:庵,小寺同菴;菴另指草名

用法似无不同

>庵

/

/板闆:板义可含闆                  

繁字有助理解

>板

/

/杯盃:盃或体                   

用法似无不同

>杯

/

/背揹:揹动词,背可兼动/名词读

繁字减少误解/

>背

/

/表錶:錶名词,但表可兼动/名词   

似可接受简形

>

/

/別彆:彆有委曲忍受义,2

繁字减少误解/

>

/

/蔔卜:萝蔔宜从草,卜挂>蔔掛,误

繁字减少误解/

>

[陆规] +

/布佈:布名词,但布可兼动/名词      

繁字有助理解

>

/

/采採:同为动词,採累增

采有2

>

/

/彩綵:彩义含綵[色彩,彩衣]

繁字有助理解

>彩

/

/鏟剷:铲可兼动(剷)/名(鏟)词

似可接受简形

>

 /

/嘗嚐:嘗可兼嚐(试味)义

似可接受简形

>

 /

/厂廠;,台规次常用字

+厂2/厂廠庵{厂非庵简体}

>

 /

/吃喫:喫,或体

繁字表达传承

>

 /

/癡痴:癡,台湾规范的异体,癡不用

用法似无不同

>

 /

/沖衝:分列,衝突的衝从行,增衝

繁字有助理解

>

/

/蟲虫:虫义含蟲,虫另有虺hui3

繁字表达传承

>

 /

/醜丑:丑可兼醜义, 丁丑>丁醜,误

繁字有助理解

>

 [陆规] +

/出齣:出可兼齣义

似可接受简形

>

 /

/錘鎚:鎚为锤或体

似可接受简形

>

 /

/棰箠:箠为棰或体

繁字表达传承

>

 /

/唇脣:脣,或体

用法似无不同

>

 /

/啖啗:在吃食之义上,啖/啗二字通

用法似无不同

>

 /

/當噹:噹象声,从口为佳,[口当]

似可接受简形

>

 /

/黨党:党,台规次常用字

+/党黨

>

 /

/蕩盪:蕩含盪义(摇动,洗涤,放荡)

似可接受简形

>

 /

/堤隄:隄,或体

用法似无不同

>

 /

/抵牴:抵可兼牴(抵触)义

繁字表达传承

>

 /

/澱淀:淀,台规次常用字

+bd/淀澱

>

 /

/雕彫:彫专指雕刻,雕专指鸟,分列?

繁字有助理解

>雕

 /

/吊弔:吊本作弔,缢死,量词;弔,弔唁

繁字表达传承

>吊

 /

/咚鼕:象声用咚,不用冬, 鼕vs咚

#/冬咚鼕

>

(应译作咚)

/鬥斗:鬥改从[门斗]; 5>5,

繁字减少误解/

>

[] +or[门斗]

/燉炖:炖义含燉()

用法似无不同

>

 /

/惡噁:噁台规次常用字

+ae2/惡噁

>

 /

/兒儿:从简,兒不用;儿有2

繁字表达传承

>

 /

/發髮:: 梳髮>梳发>梳發, 误译

繁字减少误解/

>

[]:+髮or[发彡]

/翻繙:翻可兼繙义(揭开,翻译,翻覆)                        

用法似无不同

>

 /

/範范:范可兼範义;范中>範中,误译

繁字有助理解

>

[台规]以范代範

仿/仿倣:仿兼倣(模仿);彷已在陆规内

#仿/仿倣彷2

仿

仿

仿

>仿

/

/豐丰:从简,豐可不用

/

>

 /

/佛彿:佛专指佛教,彿分列?

/

彿>佛

 /

/夫伕:夫含伕义(力役的男子)

繁字有助理解

>夫

 /

/複復:复可兼複,()另列

/

>复

[陆] +

/杆桿:从简,桿不用;杆2

繁字有助认读

>

 /

/杠槓:从简,槓不用;杠2

2

>

 /

/個箇:在量词上,箇为个(個)或体

/

>

 /

/構搆:从简,構/搆不用?

#构/構搆

>构

 /

/穀谷-简字山译为山,錯譯

+谷/谷榖

>谷

[陆规]+

/雇僱:雇为僱本字

/

>雇

 /

/刮颳:刮可兼颳(起风)义

/

>刮

 /

/掛挂:掛为挂或体

用法似无不同

>

 /

/拐枴:拐动词,枴名词,分列?

/

>拐

 /

/櫃柜:,台规次常用字 

+柜2/柜2

>柜

/

/焊銲:銲通焊(接)

/

>焊

 /

/合閤:閤, he2,全/闭

#合/合閤

>合

/

/:鬨有,在幺喝,哄动上通哄

繁字减少误解/

>

 /

/後后:后宜专指后妃;皇后>皇後,

繁字有助理解

>

 [陆规]+

/胡鬍:胡可兼鬍义

繁字有助理解

>

 /

/劃划:划含劃的刻义;划船>劃船,

繁字有助认读

>

[台规]

/嘩譁:譁,或体;2读

繁字有助认读

>

 /

/壞坏:繁体坏改作坯,坏只与壞对应

简化优于传统

>

[台规]改作

/回迴:回含迴义(回旋,环绕等)

/

>

 /

/毀燬:燬,烈火焚燒(玉篇);毀含燬

/

>

 /

/彙匯:汇可兼彙义 

/                         

>

 /

/獲穫:获可兼穫义(收割禾稼)

/

>

 /

/饑飢:从简,饑不用

简化优于传统

>

 /

/幾几:从简,幾不用;茶几>茶幾,

2

>

[台规]

/績勣:勣,或体               

/

>

 /

/跡蹟:迹/蹟为跡的或体

/

>

 /

/家傢:家含傢义

/

>

 /

/價价,台规次常用字

2/价價

>

/

/奸姦:奸可兼姦义(邪恶,淫乱,狡诈)

/

>

 /

/薦荐:从简; ,台湾规范异体

/

>

 /

/鑒鑑:鑑义己为鉴/镜义取代

/

>

 /

/薑姜:薑,蔬类,宜从艹;姜某>薑某,误译

/

>

 [陆规]+

/剿勦:勦为剿或 

/

>

 /

/傑杰:音同,杰为俗体 

/

>

 /

/盡儘:儘累增;2读

繁字减少误解/

>

 /

/徑逕:逕另有直接(副词),分列?

/

>

 /

/巨鉅:鉅,累增

/

>

 /

/據据:,台规次常用字

+据2/据2

>

/

/卷捲:捲,累增,卷兼捲義;卷2读

2

>

 /

/浚濬:从简, 濬不用?

/

>

 /

/克剋:剋,累增, 克兼剋義;克2读

繁字减少误解/

>

 /

/坑阬:阬,或体

用法似无不同

>

 /

/扣釦:扣动词,釦名词

繁字有助理解

>

/

/誇夸:夸可兼誇义

/

>

 /

/饋餽:音同,在主要字义上(致赠)

/

>

 /

/昆崑:崑,山名,可用昆代

繁字有助理解

>

 /

/困睏:睏另有所指(想睡),分列?

繁字有助理解

>困

 /

/蠟蜡:,台规次常用字,罕用

+蜡3/蜡2

>蜡

/

/臘腊:,台规次常用字,罕用

+腊/腊臘

>腊

/

/琅瑯:琅含瑯义(琅琊,珐琅)

/

>

 /

/累纍:,台规次常用字,罕用

+累3/累3

>

/

/狸貍:从简,貍不用?

用法似无不同

>

 /

/璃琍:琍,异体

用法似无不同

>

 /

/漓灕:,台规次常用字,罕用

/漓灕

>

/

/堥翩G裡取代裹, 里/裡分列

{里仁为美>堣祝鬲,错译}

>

 [陆规]+

/栗慄:栗,树木; 慄,身发抖,分列?

/

>

 /

/曆歷:历兼曆/歷义;历经>曆經,

/

>

 [陆规]+

/簾帘:簾,异体

/

>

 /

/煉鍊:在冶金/修炼之义上炼通鍊

/

>

 /

/梁樑:樑,累增,台湾规范异体

/

>

 /

/磷燐:燐指燐火,磷指矿石,分列?

/

>磷

/

/菱蔆:蔆为菱本字

用法似无不同

>菱

 /

/溜霤:霤專指簷霤,霤溜分列?

/

>溜

 /

/爐鑪:鑪,或体

/

>炉

 /

/鹵滷:滷,累增

/

>

 /

/侖崙:崙,山名,可用仑代

/

>

 /

/羅儸:儸,族名,可用罗代

/

>

 /

/麻痲:痲,病名,可用麻代

/

>

 /

/黴霉:黴,异体

/

>

 /

/彌瀰:瀰(水满)为弥()的引申义

/

>

 /

/秘祕:秘,或体

用法似无不同

>

 /

/面麵:分列,麵形旁麥简化[麦面]?

/

>

 /

/蔑衊:,台规次常用字,罕用

+蔑/蔑衊

>

/

/模糢:糢,在面食上通馍;在模糊上通模

/

>

/

/乃迺:迺,或体

/

>

 /

/撚捻:捻,以指搓,捏; 说文作撚

2/拈2,{捻与拈不同}

>

 /

/念唸:念可兼

/

>

 /

/娘孃:孃,或体

/

>

 /

/齧嚙:齧,同啮

用法似无不同

>

 /

/寧甯,台规次常用字,罕用

+宁2/寧甯2

>

/

/暖煖:煖通暖(,使热)

用法似无不同

>

 /

/盤槃:槃异体;繁体盤有形声功能

/

>

盘宜复原

/彷徬:彷,彷佛;在彷徨义上同徬

2

>

 /

/炮砲:砲,或体

/

>

 /

/佩珮:佩可兼珮义

/

>

 /

/辟闢:闢,累增

/

>

 /

/撲扑:扑为撲或体

/

>

 /

/仆僕:从简,使仆兼仆()/僕义?

2

>

 /

/樸朴:从简,使朴兼朴/樸义?

4

>

 /

/淒悽:悽属于内心感觉,悽分列 ?

/

>

 /

/戚慼:戚可兼慼义

/

>

 /

/千韆:千可兼韆义

/

>

 /

/簽籤:在标记/竹签之义上签通籤

/

>

 /

/纖縴:纤可兼纖/縴义

2

>

 /

/強彊:彊,或体

用法似无不同

>

 /

/秋鞦:秋可兼鞦义

/

>

 /

/球毬:毬,今字作球

/

>

 /

/曲麴:曲可兼麴义

2

>

 /

/蜷踡:蜷可兼踡义

/

>

 /

/確,台规次常用字,罕用