如何在现状下使繁简 非对称”字成为”一对一”的对应

      ----- 并提出新的繁简转换软件供大家试用 ----

 

1.0. 引言

  目前海峡两岸交流频繁,繁、简文本的对译,全靠自动转换。常因繁简”非对称”对应的问题需要人工校对,否则可能出错。所谓非对称字包括 一简多繁、一繁多简、及其所含的异体字。短时期内要修订两岸文字规范,看来并不容易。但在繁简对照的字表中作些变通处理,却是可行的。本文试提一个具体方案,拟定了繁简对应字表并转换程式,希能在如下条件下,做到较正确的对译:

a. 原则上不用软件的智能设计。

b. 容许在简体语境中出现少数繁体字。

c. 繁体正体字与简体作一对一” 的可逆对应。

d. 繁体异体字与简体也各作一对一” 的单向对应。以图示之如次:

     繁体正体字ßà简体ç繁体异体字

        ßàç

          ßàç

          ßàç

↖觝

上图显示繁体正体字及其所属的异体字无论有多少个,对于简体言,都是”一对一”的对应。而且繁体正体字与简体字之间的对应是可逆的,而异体字向简体的转换则只能是单向的,这样就能保持繁简之间的”一对一”关系。例如,简体”抵”各自对应了繁体”抵、牴、觝”,表示它的字义与这3字相当。因”抵”与”牴、觝”之间是包孕异体关系,而”抵”的含义最广,故列之为繁体中的正体,与同形的简体”抵”对应;而异体”牴、觝”也是各自与简体抵”一一对应。

依笔者从收集的多种资料中观察,繁简”非对称”问题,归根结底是如何解决异体字的对应问题。

 

2.0 繁简”非对称”字组来源及数量

首先要从现行用字资料中寻找繁简差异的字组,以及”非对称”字组的数目,现把它归纳之如下表:

   

资料来源

繁简差异

一简多繁

 

Big-5, 13060(台湾常用及次常用字)

2724字組

378字組

含异体

来自Unihan的统计, 题目忘记 (作者京典)

2662

74

含异体

一般古籍用字的统计11614 (李牧)

2616

413

含异体

七份非一一对应简繁字研究比较(陈明然)

/

324

字組介紹,不代表作者意見

综合

2842

475

异体

 

以上综合共得”一简多繁”475组,加上”一繁多简”15组,共有489”非对称”字组有待处理。

 

 

3.0 繁简”非对称”字组分类

”非对称”字组可分为如下数类:

3.1  D类:繁体有2个字与简体对应,其中1个字形与简体同,但并不通行;而另1个字形不同的繁体却是通行的正体,共有106,列之如次表。正体字与简体作可逆对应,异体字与简体则作一对一的单向对应。请注意表中第二栏繁简字形完全相同,两栏的简体字形也相同。

 

D类– 106

<->繁正

繁异->

<->兒

-儿

<->於

-于

<->萬

-万

<->佔

-占

<->誇

-夸

<->樸

-朴

<->蟲

-虫

<->優

-优

<->價

-价

<->沍

-冱

<->莊

-庄

<->異

-异

<->懺

-忏

<->機

-机

<->網

-网

<->傭

-佣

<->聽

-听

<->桿

-杆

<->槓

-杠

怀<->懷

怀-怀

<->擾

-扰

<->簾

-帘

<->傑

-杰

<->洩

-泄

<->餚

-肴

<->蝨

-虱

<->嶺

-岭

<->憐

-怜

<->極

-极

<->遝

-沓

<->濘

-泞

<->燉

-炖

<->蟣

-虮

<->掛

-挂

<->迆

-迤

<->暱

-昵

<->櫃

-柜

<->窪

-洼

<->潔

-洁

<->種

-种

<->勝

-胜

<->蘋

-苹

<->恆

-恒

<->塚

-冢

<->淩

-凌

<->湧

-涌

<->貍

-狸

<->臯

-皋

<->黨

-党

<->棲

-栖

<->塗

-涂

<->繭

-茧

<->蠶

-蚕

<->趕

-赶

<->適

-适

<->撚

-捻

<->瑯

-琅

<->驚

-惊

<->據

-据

<->澱

-淀

<->癢

-痒

<->矽

-硅

<->離

-离

<->稭

-秸

<->築

-筑

<->醃

-腌

<->僱

-雇

<->稜

-棱

<->確

-确

<->羨

-羡

<->潟

-舄

<->蹠

-跖

<->癡

-

<->痺

-痹

<->觸

-触

<->願

-愿

<->搾

-榨

<->灕

-漓

<->簑

-蓑

<->踡

-蜷

<->蠟

-蜡

<->踴

-踊

<->黴

-霉

<->蠍

-蝎

<->翺

-翱

<->彫

-雕

<->簷

-檐

<->籬

-篱

<->籐

-藤

<->犛

-

<->豐

-丰

<->與

-与

<->氣

-气

<->撲

-扑

<->聖

-圣

<->弔

-吊

<->燻

-熏

<->幾

>几

<->夥

>伙

<->屍

>尸

<->僕

>仆

<->闢

->辟

<->鹹

>咸

<->雲

>云

<->劃

>划

<->范

>范

 

3.2  E类:繁体有2个以上的字与简体对应,其中1个为正体,它的字形与简体相同。共有165个,列之如次表。正体字与简体作可逆对应,异体字与简体则各作”一对一”的单向对应。

 

 E类–166

<->繁正

繁異->簡

<->

>凶

<->夫

>夫

<->扎

>扎

<->只

>只

<->布

>布

<->札

>札

仿<->仿

>仿

<->合

>合

<->吃

>吃

<->奸

>奸

<->托

>托

<->朱

>朱

<->污

>

<->考

>考

<->佛

彿>佛

<->佑

>佑

<->呆

>呆

<->困

>困

<->坑

>坑

<->址

>址

<->床

>床

<->彷

>彷

<->志

>志

<->灶

>灶

<->佩

>佩

<->刮

>刮

<->制

>制

<->卷

>卷

<->周

>周

<->幸

>幸

<->弦

>弦

<->征

>征

<->念

>念

<->拐

>拐

<->昆

>昆

<->杯

>杯

<->板

>板

<->松

>松

<->注

>注

<->沾

>沾

<->舍

>舍

<->芸

>芸

<->表

>表

<->侄

>侄

<->咽

>咽

<->哄

>哄

<->咱

>咱

<->恤

>恤

<->背

>背

<->致

>致

<->厘

>厘

<->復

>复

<->洒

>洒

<->俯

>俯

<->修

>修

<->准

>准

<->唇

>唇

<->娘

>娘

<->家

>家

<->席

>席

<->挽

>挽

<->晒

>晒

<->核

>核

<->殷

>殷

<->浚

>浚

<->留

>留

<->症

>症

<->秘

>秘

<->荐

>荐

<->偷

>偷

<->啖

>啖

<->庵

>庵

<->彩

>彩

<->御

>御

<->旋

>旋

<->梁

>梁

<->欲

>欲

<->淫

>淫

<->焊

>焊

<->球

>球

<->眺

>眺

<->累

>累

<->麻

>麻

<->勖

>勖

<->剩

>剩

<->喂

/喂

<->堤

>堤

<->棹

>棹

<->焰

>焰

<->菱

>菱

<->腊

>腊

<->剿

>剿

<->搜

>搜

<->暖

>暖

<->溜

>溜

<->溪

谿>溪

<->照

>照

<->酬

>酬

<->

>

<->筱

>筱

<->旗

>旗

<->演

>演

<->管

>管

<->酸

>酸

<->墉

>墉

<->嘻

>嘻

<->模

>模

<->澄

>澄

<->璃

>璃

<->蔑

>蔑

<->璇

>璇

<->箬

>箬

<->噪

>噪

<->磷

>磷

<->膻

>膻

<->襁

>襁

<->翻

>翻

<->鬃

>鬃

耀<->耀

>耀

<->燕

>燕

<->吁

>吁

<->向

>向

<->扣

>扣

<->

>圭

<->

>妊

<->

>吨

<->

>沄

<->

>拓

<->

>肮

<->

>淋

<->

>移

<->

>筋

<->

>嗔

<->效

>效

<->毡

>毡

<->奶

>奶

<->鬥

>鬥

<->乃

>乃

<->出

->出

<->游

->游

<->丑

->丑

<->

>

<->郁

>郁

<->岳

>岳

<->范

>范

<->才

>才

<->升

/陞>升

<->曲

/麯>曲

<->克

/剋>克

<->刨

/鑤>刨

<->局

/跼>局

<->系

/繫>系

<->岩

/巖>岩

<->抵

/牴>抵

<->泛

/汎>泛

<->炮

/砲>炮

<->胡

/衚>胡

<->捆

/梱>捆

<->戚

/慼>戚

<->愈

/癒>愈

<->叙

/敘>叙

<->暗

/晻>暗

<->

/讌>宴

<->台

/臺/颱>台

<->回

/囬/廻>回

<->并

/並/併>并

<->蒙

/懞/矇>蒙

 

3.3  J类:为着繁、简体的正确对译,也为着一些简化字的语意更清晰,在简体的语境中有少数字必须采用繁体。例如谷” 一字兼有繁体谷、穀” 义,这是常用字,须分别转译。再如简体历”,目前对应了历、曆、歷” 3 字,而 曆、歷 字义不同,宜把”歷”字分出另译。又如,鼕,鼓声,现译为冬,宜改译为简体已有的”咚”字。端,除端义外尚有专义; 端、耑二字宜分译。

此外,繁体么(yao)的字形应改作幺;以免与简体么()混同。繁体坏,原是坯的异体,应废去不用,以免与简体坏()混同。

在简体语境中须恢复为繁体的有10个:()、薑()()、後() ()、鬥()()()、裡()、醜(),详下表说明。

<->

--

              

<->

<->

/穀分译; (山谷≠山穀)

<->姜

<->薑

/薑分译;  (姜子牙≠薑子牙)

<->發

<->髮

/对应;分译 (头发≠頭發)

<->后

<->後

/後分译; (皇后≠皇後)

<->面

<->麺; 靣>面

/面分译 (面臨≠麵臨)

<->斗

<->鬥; 鬭>鬥

/鬥分译; (五斗米≠五鬥米)

<->干

<->幹; 乾<->乾

/幹分译 (干涉≠幹涉); 榦>幹

<->曆

<->歷; 厤>历

历與曆对应; 歷分译; (歷史≠曆史)

<->里

<->裡; 裏>里

/裡分译; (公里≠公裡)

<->丑

<->醜

丑醜分译; (辛丑≠辛醜)

 

在繁体的语境中,目前留下的简体字有游(以游当)、岳() 2字。

 

也许有人说,软件的智能设计不是可以解决这些问题吗?它确实可解决大部分问题,但不是全部。文章是灵活的,千变万化的,智能设计只是一个网眼大的滤网,总有一些”非对称”字,成了漏网之鱼,出现在人们眼前。因此笔者主张应少用智能设计,澈底的做法是重新改订繁简对照表”。

可能有人质疑:这样一来,一些繁体字混杂在简体文章中,不是乱了套,不符合用字规范了么?--- 这是个观念问题,需多费些笔墨作一番解释:

1).现行简体字不过2,000多个字种,而一本繁体书籍翻译成简体文本之後,传承的繁体字,仍占相当数量。既是如此,多几个传承字又有何妨?

2).目前网络上繁、简体文章交流频繁,并可即时转译。对于常用的繁体字,当不陌生。这样繁简并存的文章,约定俗成之後,等于为日後两岸修订规范字作”先期试验”,也为未来两岸”书同文”做些启发性的指引工作。

 

3.4  Y类:在474个非对称的字组中,大多数是繁体异体字的对应问题,把它归为Y类。此类字可分为2小类:

1). 等同异体(Y1):二者字义几乎全等,例如 /札、喫/吃…。

2). 非全等异体(Y2):例如包孕异体,或虽有部分字义差异,但是罕用。例如 /禦、庵/菴…。

所有异体字和正体一样,都可与相当的简体作”一对一”的对应,详下文第4.0节。

 

4.0 异体字的对应

4.1  Y1--- 繁体正体字与简体作可逆对应,异体字各与简体成”一对一”的单向对应。请注意第二栏的简化字与第一栏的同形,这表示繁体的正体字、异体字都与同一的简体字对应。

  本表直接录自所搜集的非对称字组资料,其中一部分异体字并不常见,可能来自港澳,而这些字都有unicode。汉字异体之多之杂,由此可见一般。

 

Y1  157字组

<->繁正

繁异->

<->甕

>瓮

<->為

>为

<->産

>产 

<->眾

>

<->傘

>

<->偽

>伪

<->劍

>

<->勳

>

<->

>

<->鹵

>

<->

>

<->

>参

<->嘆

>

<->啟

>启

<->

>

<->嚙

>

<->嘯

>

<->囂

>

<->場

>场

<->壟

>

<->壚

>垆

<->塤

>

<->牆

>墙

<->

>

<->

>

<->

>

<->嫵

>妩

<->媯

>妫

<->嫻

>

<->賓

>宾

<->嘗

>尝

<->盡

>尽

<->屭

>屃

<->歲

>岁

<->

>岽

<->

>恹

<->愨

>悫

<->慚

>惭

<->懶

>懒

<->擋

>挡

<->搗

>捣

<->攜

>携

<->

>敛

<->雜

>杂

<->欞

>棂

<->櫝

>椟

<->

>橹

<->歡

>欢

<->溈

>沩

<->澀

>涩

湿<->濕

>湿

<->

>滟

<->爐

>炉

<->煉

>炼

<->

>疬

<->瘺

>瘘

<->盤

>盘

<->礦

>矿

<->磽

>硗

<->

>碱

<->窯

>

<->窺

>窥

<->豎

>竖

<->

>箋

<->紝

>纴

线<->線

>线

<->

>绣

<->絛

>绦

<->

>

<->綿

>绵

<->繃

>绷

<->緡

>缗

<->韁

>缰

<->罌

>罂

<->艷

>艳

<->蔭

>荫

<->藥

>药

<->蒞

>莅

<->蓴

>莼

<->蟻

>蚁

<->

>规

<->

>讹

<->説

>说

<->

>谣

<->謚

>谥

<->

>谪

<->謭

>谫

<->贓

>赃

<->

>赆

<->齎

>赍

<->贗

>赝

<->

>软

<->輝

>辉

<->

>辒

<->

>辖

<->辭

>辞

<->跡

>迹

<->鄰

>邻

<->醖

>酝

<->鑒

>鉴

<->針

>针

<->鉤

>钩

<->缽

>钵

<->鉆

>钻

<->鐵

>铁

<->剷

>铲

<->

>铺

<->鋤

>锄

<->

>锈

<->錘

>锤

<->

>

<->

>镋

<->鎸

>镌

<->钁

>镢

<->閑

>闲

<->閘

>闸

<->閲

>阅

<->階

>阶

<->讎

>雠

<->頹

>颓

<->顔

>颜

<->飆

>飙

<->館

>馆

<->饋

>馈

<->驅

>驱

<->駁

>驳

<->罵

>骂

<->騾

>骡

<->

>鲞

<->鯁

>鲠

<->鯀

>鲧

<->鰐

>鳄

<->鰍

>鳅

<->鰲

>鳌

<->鱉

>鳖

<->鱔

>鳝

<->雞

>鸡

<->鵝

>鹅

<->鷴

>鹇

<->鵾

>鹍

<->鶿

>鹚

<->

>鼗

<->佇

>

<->錄

>

<->鑲

>

<->塢

>坞

<->

>么

<->

>

<->磚

/甎>砖

<->絏

/紲>绁

<->

/羢>绒

<->袜

/襪>袜

<->視

/眎>视

<->嬝

/裊>袅

<->體

/躰>体

<->採

/埰>采

<->構

/搆>构

 

4.2 Y2 --繁体正体字与简体作可逆对应,异体字各与简体成”一对一”的单向对应。

Y2  37字组:

<->繁正

繁异->

<->個

>个

<->侖

>

<->茲

>兹

<->沖

>冲 

<->別

>别

<->

>

<->

>

<->

>

<->彌

>弥

<->強

>强

<->徑

>

<->

>

<->毀

>毁

<->彙

>汇

<->懾

>慑

<->

>

<->擺

>

<->饑

>饥

<->蕩

>荡

<->證

>证

<->煙

>烟

<->簽

>签

<->纖

>纤

<->績

>绩

<->羅

>罗

<->臟

>脏

<->獲

>获

<->銜

>衔

<->贊

>赞

<->寧

>宁

<->鑰

>钥

<->須

>须

<->蘇

/囌>苏

<->淒

/凄>凄

<->當

/儅>当

<->揚

/敭>扬

<->攢

/儹>攒

 

以上474个繁简”非对称”字例,全是自现有资料中搜集得到的(参见上文2.0)。但现行繁简转译软件内的字表,尚未更新,有些己简化的字并未录入,例如:

/ 迭疊

已有简化字叠,二者各自对应:<->,<->

/審讅

已有简化字,二者各自对应:审<->, <->

/向嚮曏

与向对应可能有误; ,不久也(说文),应另列

 

5.0   一繁多简的字组

除”一简多繁”外,尚有”一繁多简”,笔者目前搜集到的共有如下15字组,也需要处理。“多简”的处理情形详如下表。

一繁多简字组表- 15

读音

  简简

处理方式

    

ban3

  阪坂

二字分用

蒲坂地名,宜留用

chu4

  怵憷

取怵舍憷

<->,  ->

gao3

 

二字分用

,草本植物

gun3

  滚磙

二字分用

磙字义稍异

He

 

取呵舍嗬

<->, ->

hu2

  糊煳

二字分用

煳字义稍异

Jiang4

  强犟

二字分用

犟强义有别

liu4

  溜熘

二字分用

熘字义有别

Long3

  垄垅

垄舍垅

<->, ->

Meng3

  猛勐

二字分用

,用做地名

Pi

  劈噼

二字分用

噼字义稍异

Yui4

退  退煺

二字分用

退煺字义有别

Yuan2

  原塬

二字分用

,西北黄土高原

nian3

 

<->, ->

zhu4

  著着

繁体增着

<->, <->

 

由上表可知,各组内简化字互为异体的有怵/怵憷、呵/呵嗬、/垄垅、/鲶鲇4字组,各须取一舍一。因字义稍异的有槁/槁藁、/强犟、溜/溜熘 …10 字组,须保留使用;它们不必经过转换,照原字形进入繁体。有一个字组是最常用的”著/着”,二者音义本有差异,自应分别使用,其中”着”一字正是繁体缺少而要补充的。

 

6.0  新的繁简转译程式

  笔者依照前文所述的理念,拟定了”一对一”的<繁简转换>程式草案,供大家试用。

  http://www.exponode.com/misc/ch_conversion.php

 

  这程式主要依据前文2.0节,繁简对照2842字组及474非对称字组而设计的。试用後如有差误,惠请告知,以便随时更正。我测试过该程式的容量,在20万字以内可一次输入转换。

笔者所设计的繁简转换程式,是实验性的,意在提供大家试用後,提出批评及改正的意见。我当从善如流,不断的修正程式内的繁简对照表,以期获得大家的认同。

 

7.0 结语

 1). 多年来繁简”非对称”对应问题,给人带来了不少困扰。本文试以新的”繁简对照表”及一个公式去解决此难题。那公式是:繁、简正体字之间作可逆对应,异体字则作单向对应。

笔者认为在目前繁、简并行的年代中,繁、简体应处于同一平台,各为正体,容许在简体语境中出现少数繁体字。频繁交流、约定俗成之後,就可把这些目前认为不合规范的字,归纳入于规范之中。也就是说,语文应用在先,规范修正在後,我国歷代的文字整理(”正”字)都是走同一过程。

2). 解决繁简”非对称”字问题,其实就是如何处理汉字的正、异体问题。笔者认为所谓传承的正体字,并非一成不变的。在目前繁简并行的语境中,应给”正体字”新的定义,使它符合如下条件:

 a. 它是较为通行的

b. 易学易用的

c. 较为符合字理的

如果现行繁体异体字与简体同形,而又能符合上述条件,则是首选。例如,在上文 D 类字表中,繁体 / 对应了简体扰”,因为”擾”较为通行,我依照惯例选用””作为正体。其实在繁体语境中,也有不少人使用”扰”,如把”扰”当作繁体正体字,则繁、简同形,有利于未来汉字的统一。

 

8.0 本文附记

经过十多天上网讨论及个人思考结果,繁简转换的”对照字表”有些修订。本文最後的结论是:原则上不用软件的智能设计,在下列条件下,可望得到繁简体”一对一”的对应。

1. 在简体的语境中恢复10个传承字:穀()、薑()、髮()、後()、麺()、鬥()、幹()、歷() 、裡() (),与原简体并用,使字义更加明确。

2. 一部分非对称字组用简单的词语对应,避去错译。例如,以”佣金”避免”金”,”咸丰”避去”丰”,”仆倒”避去”倒”……。

按当年汉字简化政策,除简省字形外,还要减省字量,所以才有”一简多繁”的对应发生。依本文统计,繁简对应的2842字组中,”一对一”的有2368组;”一对多”的有474组,加上”一对三以上”的48组,共省了522字,占了18%,不能说不多。为着节省字量,笔者在拟案时,尽可能不去增加繁体字。

3. 笔者提出繁简转换程式,供大家试用,以考验繁简对照表是否正确无误。

http://www.exponode.com/misc/ch_conversion.php