再谈简繁非对称字组的对应问题

1.0  引言

近日网上流传一篇<德国媒体预测中国未来30>的文章,其中有关汉字字体方面的预测:

”2028年中国大陆进行简化字修改方案试运行,将简化的不科学,不成功的简化字取消,所有简体字应保持与繁体字一一对应,并且结构合理,表意明确。同时在港澳台地区推行新简体字。”

上述所谓”新简体字”的描述是:所有简体字应保持与繁体字一一对应”这个重点,个人觉得很有必要。在单一语境内(只在大陆内部行文),通常不觉得简繁对应非对称问题的严重性。但在简繁并行的地区(如海外)常有因简繁非对称对应而错译的困恼。看来大陆文教当局开始重视这个问题,而研订解决方案了,这是个好消息。笔者过去曾多次谈到这个问题,本文再就个人想法,提出一个方案,供大家参考。

 

2.0 简繁非对称字组的统计

首先,在两岸规范字范围内,究竟有多少非对称字组?这就要以计算机软件加以统计,才不致遗漏,其步骤是:

1. 列出两岸 简、繁规范字

2. <微软>设计的简繁对译程序,列出转译的繁()体字

3. 以程序自动求出:1.字形不同字组, 2.简一繁多字组,如次表。

规范字

字數

字形不同

简一繁多

a.台湾通用字

13,060

2,724

378

b.大陆通用字

 7,000

2,346

18

c.大陆通用字

 8,300

2,504

38

b+c

------

-----

46

a+b+c

------

-----

378

 

从台湾规范(a)求出的一对多字组378,含盖了从大陆规范(b+c)求出的46字组。详细内容见下文各类字组的分析

 

3.0  一对多字组 A 的分析

1. A --- 两个繁体字中的一个与简体同,简繁体己是一对一的对应,共113组。

例如      

 

厂廠

么麼

于於

万萬

丰豐

扎紮

与與

气氣

占佔

扑撲

圣聖

仿

仿倣

吊弔

夸誇

朴樸

污汙

虫蟲

优優

价價

冱沍

庄莊

异異

忏懺

机機

网網

呆獃

听聽

坏壞

杆桿

杠槓

体體

吨噸

怀

怀懷

扰擾

弦絃

杰傑

泄洩

肴餚

芸蕓

虱蝨

侄姪

岭嶺

怜憐

极極

沓遝

泞濘

炖燉

虮蟣

挂掛

迭疊

迤迆

昵暱

柜櫃

洼窪

洁潔

种種

胜勝

苹蘋

恒恆

冢塚

凌淩

浚濬

涌湧

狸貍

秘祕

党黨

凄淒

栖棲

涂塗

茧繭

蚕蠶

蚝蠔

赶趕

适適

庵菴

琅瑯

眺覜

勖勗

惊驚

据據

淀澱

痒癢

硅矽

离離

筑築

腌醃

菱蔆

棱稜

确確

羡羨

腊臘

舄潟

跖蹠

剿勦

棰箠

痹痺

筱篠

触觸

愿願

榨搾

漓灕

蓑簑

蜷踡

蜡蠟

踊踴

蔑衊

蝎蠍

檐簷

篱籬

膻羶

藤籐

莜蓧

帘簾

 

 

4.0. “一對多”字組 B類 的分析

繁體中的一字與簡體對應,其它一(多)字,作異字處理。

繁多的字组中,如果有异体字存在,就可把它剔除,以使简繁达到一对一的关系。那些异体字先转为简体、再转回繁体时,字型改为正体。

例如:捣---搗擣,其中[擣]是[搗]的异体,可把它剔除, 捣/搗 就可一一对应。

繁体文章若出现字,转简时,作;若再转回繁体时,作,即:

   

又如  宁/寧      (正)     甯(异)

  

在简繁互相转换中,简体文章的字形不变;繁体文章经一再转换后,异体化为正体,不会复元为原样,文意也不会变更。重点是二者必须近于全等异体。否则文意就不同了。

這類字組共204個,下表第二欄,左為正,右為異:

 

簡體

,異

彿

家傢

谿

耀

耀

湿

昇陞

臺颱

曏嚮

郃閤

鉋鑤

侷跼

係繫

喦巖

枴柺

牴觝

氾汎

偺喒

衚鬍

醼讌

梱綑

慼鏚

釬銲

瘉癒

懞矇

燻薰

儅噹

儹欑

燬譭

槃磐

毧羢

甦囌

鋻鑑

 

前表我选用的正体,除它的字形尽可能与简体相近、有利于日后整合之外。还有别的一些考量。例如:

选仆,可免前僕()后继的误译

佛彿

选佛,可免彿()的误译

制製

选制,可免 製()度 的误译

松鬆

选松,可免 鬆()树 的误译

准準

选准,可免 準()许 的误译

栗慄

选栗,可免 慄()木 的误译

辟闢

选辟,可免 复闢() 的误译

 

5.0  <微软>对译设计须修改的说明

 

1. 订正少数误译的字组

简一繁多的字组中,曾发现<微软>的对译设计有失误或不周之处,(即软件内对照表有误),例如:繁转简:扡-- >扦 ;-- >扦 ,因而形成了一个一对多字组:扦/扡扦

但查<汉典>

扡:1.(tuo)同拖;2.(chi3)顺木纹剖开;3.(yi3)迁移

扦:(qian)竹、木制成的一种针状器具

二者音义都不同,显然 /扦 的对应是错的。

 

2. 改用简明的繁体字作对应

个人认为在对应的多个繁体中,宜选用字型较为简单的一个,例如:

目前 <微软>对译:札劄,但繁体亦有札字,且亦通用,宜改为 札札, 劄→札

又如 <微软>对译:晒曬,但繁体亦有晒字,且更常用,宜改为 晒晒,

次表是类似可以从化简的字组,共23个 :

 

简一

繁多

改选的繁体

謚諡

>謚

札劄

>札

吁籲訏

>吁;訏>吁

郁鬱

>郁

洒灑

>洒

晒曬

>晒

荐薦

>荐

捻撚

>捻

痴癡

>痴

霉黴

>霉

璇璿

>璇

繈襁

>襁

嚙齧

>嚙

櫺欞

>櫺

艷豔

>艷

裊嫋嬝

>裊;嬝>

鈅鑰

>鈅;籥分立

鉆鑽

>鉆

銹鏽

>銹

鎲钂

>鎲

飢饑

>飢

鰲鼇

>鰲

鷴鷳

>鷴

 

3. 使用词对应可避錯

目前微软对译:卜蔔 ;  就可能有() 的错译

若该组對應 改为:卜卜 , 萝卜 蘿蔔> (词对应),就可避免錯譯。

本文使用”詞對應”的有下列5組:

 

简一

繁多

简繁字与词的对应

卜蔔

卜;萝蘿蔔

丑醜

醜;辛丑

佣傭

傭;佣金

咸鹹

鹹;咸豐咸丰

御禦

禦;御用

 

 

6.0  ()体规范须增加必要的繁()体字

 

上文说明使用词对应,可以避免错译。但是词对应不是万灵单,有些字组,仍不能藉此来解决错译的问题。

例如:斗 /斗鬥,在繁体语境中,斗、鬥 不同义,简繁转换时:

鬥 , 五斗米(譯成)五鬥米,即使可用词对应(五鬥米→五斗米)改正過來,但若是七、十…斗米呢,你不可能用无数的词对应来改错,唯一的办法是 斗、鬥 二字各自分立。

 

又如:发/發髮,发發 ,可能有 頭發、或 髮生 的错译 發或髮 的组词有数十种,你如何能使用词对译去改错呢,这就是为什么简体规范要增加传承字的理由。

 

有些字组,可另一角度來讨论,例如:/征徵,在繁体语境中,征召、象征 用[],征伐、长征 用征,二者并非等同;但简化字[]概括了上述诸义,己有60 多年的历史,约定而俗成。为减少用字量,不妨以征兼代的原义。则独立不转译,因之唐代名相魏徵仍可保留在简繁体的文本中。

同理,古人南宫适,因只有一個,亦可以词对应的方式保留,不致误译作南宫適

 

以下29一对多字组,大都有错译的可能,繁体字须各自分立,例如:

目前转译软件 兒,快点儿> 快點兒,带儿的尾音变成重读,故 儿、兒 应分立,大陆规范宜纳入字。

又如目前转译软件 干幹、鬥、后後、谷穀、姜薑、发髮……,皆有錯譯的可能,这些繁体字,难以词对应方式解决,均宜纳入大陆规范内,详如次表:(31)

 

儿兒

儿兒分立

几幾

分立

干幹乾榦

干幹乾分立;榦>幹

云雲

分立

凶兇

凶兇分立

斗鬥

斗鬥分立

只衹隻

只隻分列;>只

伙夥

分立

后後

分立

回迴

分立

奸姦

分立

并並併

並;併分立

朱硃

分立

折摺

分立

谷穀

分立

里裏裡

里;裡分立;裏>裡

姜薑

分立

范範

分立

面麵

分立

复復複

複;復分立

游遊

分立

端耑

分立

曆厤歷

曆;歷分立;厤>曆

發髮

分立

壇罈

分立

惡噁

分立

彙匯

分立

縴纖

纖;縴分立

巨鉅

巨;钜

余餘

余;

鍾鐘

鐘;

 

 

7.0 本文总结

 

1. 我在本文提出简繁一对多对应问题,意在说明我处理这问题的基本理念及方式。因为文章千变万化,软件防错的设计很难万全,因此简、繁体必须一一对应。才能澈底解决问题。

一对多发生的原因有二:一为台湾规范中容纳了一部分流行的异体,一为简体规范为节省字量而对应了多个繁体。因此处理简、繁对应问题时,就必须一并处理异体问题。

 

2.面对上述378”一对多字组,我们要做的功课是:

a). 各组繁体字中有无全等的异体?如有,剔除它,以便该字组作一对一的对应。

b). 现有<微软>简繁对译的设计,有无可改进之处?个人认为:除极少数字的误译外,还有一些可改善之处,例如:艳/艷豔,現行 艳 转译为 豔,艷当作异体处理,倘若改为 艳/艷 对应,使简繁体字型类似,岂非更佳?而且艳是个容易了解的会意字。笔者认为寻求简繁体一对一的正确对译,是迈向汉字书同文的起步。

 

3. 解决一对多问题,有三个途径:a).改善简、繁对译软件,b).繁体规范中增加一些简化字,c).简体规范中增加少数传承字。繁多字组中,尽可能选用结构简单的、或字形接近简化字的作正体,以利于日后简、繁体的统合。

处理本问题的公式如下,(不论字或词的对应,均可利用)

  ()/(1)(2)  乙 ;  丙→甲  or  (分立,不转换)

例如:/蘇甦囌:  蘇 ; 甦→苏    (分立,不转换)

 

4.简化字推行多年后,发生了字义的延伸,(亦即一字兼具多义),在处理时也要酌加考量。如果仍照传统字典去解释现行简化字的字义,就会失去简化字在汉字发展史上的正面意义,那就是 简省字形结构 并减少流通字量。

另一方面简化字为着节省字量,有时过犹不及。例如:熏/熏燻薰:在繁体语境中,元熏、燻火、薰芳是用不同的字,简化字一字兼三义,是否兼职太多?,如何取舍,见仁见智,也是可以讨论的事。

 

5.个人认为拟案应着重现代语义,例如:在简体语境中,[]兼含了 开辟、复辟之义,而且在现代语文中,[]只是组词的词素,本身并不单独使用,则以开辟取代开闢,有何不可?

又如字组 才/才纔,虽然在古代汉语,才/纔 字义并非全等,但在刚纔一词中,纔也只是个词素,以刚才取代刚纔, 把当作异体,对于现代人来说,是理所必然。而在转译古书时,纔仍会保留在简体译本中。

 

6.本着这个理念,年前笔者曾有个相似拟案,详如网页:http://chinese.exponode.com/6_7.htm

虽然 取样范围及拟定的字例,前案与本文有些不同,但处理的方式类似,可供作参考。

 

附件1 新简要增的传承字

新简要增的传承字26个,其中14个优先,如次表。

 

新增

分立

优序

1

1

1

1

1

1

1

1

1

1

1

1

2

2

2

2

2

2

2

2

2

2

2

2

2

 

附件2  新繁采用的简化字

58个:其中19字与避免错译有关,如后、後分立,以免皇後等的錯譯;39字乃使用字形單的繁體 > 鉆;癡>痴 詳下表。

 

采简

沿用

优序

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

 

 

參考–台灣標準字來源

. 台湾CNS-11643 所含”标准字体”的来源

1. 19829月教育部公布<常用国字标准字体表>共收4808字。本表主要参考师大国文研究所之 ”常用字表”(2408)、教育部之”国民学校常用字汇表”(4708)15种数据,合并统计其频率,再参酌各方意见修订而成。本字表以楷书为准,字形有数种而音义无别者,取一字为正体,余体若通行,则附注如下,例如:”才”为正体,”纔”字附见[]。选取原则:(1)取其最通行者,例如:取慷不取[忄亢](2)取其合于初形本义者,例如:取腳不取脚;(3)取其笔划较简、使用较广者,例如:取炮不取[石马](4)字有多体,其义古通今异者予以并收(/),古别今同者亦同。

2. 198212月教育部公布<次常用国字标准字体表>共收6330字。选字的原则:(1)凡十三经、四史、楚辞、文选、淮南子、老子、庄子、荀子、韩非子、吕氏春秋、管子等;(2)以中文大辞典为根据,再参酌其它辞书,凡某字之词头次数出现超过二次以上者;(3)  现代学术专业或地方性用字,经讨论决定者。

[注]:4.0 附表所列的”或体”字外,台湾标准书册内还注明的”或体”字:姪/侄/够/坟/亘/凭/撑/据/担/携/叙/沉/况/温/澂/灾/罏/琼/叠/礼/绣*/钵*/骂*/脚/胆/着/莅/裏/绔*/猪/赝* /踪/踰/鍼/锈* /铁*/鸡*/体/粘/冽( *原注是繁体偏旁) 可知”或体”字形,有些与简化字相同。

. 台湾规范字CNS-11643的公布

1. 198610月行政院科委会、教育部、中央标准局等合编之<通用汉字标准交换码>CNS11643,共收编规范字13,051字。乃以教育部之常用字汇(4,808)、次常用字汇(6,330)为根据,再由现行之主要中文系统中过滤选择使用频率较高之1,907 字合编而成。异体字部分,原则上不另编码,只选择最常用的异体字:(勳)、梁(樑)、荐(薦)、痴(癡)、艷(豔)、晒(曬) 6个字。字形方面,概依<教育部標準字體表>製作,逐字查考,统一点画。编码顺序,以”先笔划后部首”的方式排列。其中常用字5,401部分,乃由常用字汇4,808,及国小教科书之常用字587字及异体字6字合编而成。将该规范字集13,051,扣除常用字5,401后,所余的7,650字,则为次常用字集;内含上述之次常用字标准字体6,330个。

2.  19886 <通用汉字标准交换码>CNS11643,增补6,148罕用字,连原有13,051,合计共 19199字;但罕用字并不予以编码。

a. 字形有数种而音义无别者,取一字为正体,余体若通行,则附注之,如:”才”的附体”纔”。

b. 字有多体,其义古通今异者予以并收(如:間/閒);古别今同者亦予并收(如:証/證)。

因为台湾标准字含有不少异体,增补后”简一繁多”的情况还是会存在,但其时大陆规范字对应的是台规甲字或甲字的异体,繁简转择时当不致发生歧义。