中文通用字的字數應為多少 nhz\wz2 9/96 1/99
提要:較科學的作法,是收集現有一般出版物的用字範圍 ,依據用字頻率,加以整理歸納; 藉以驗證已頒行的 <通用字表>
的字數𥕢是否實用合理。另一方面,通用字以外的「備用字」,也應加以編輯,「備用字」的內涵,應較為完備,須包含一般古書裡的用字
,以及專門類科的普通用字。估計通用及備用字數約在13,000左右。𠎀
1.0 現行規範字的字量問題
中文電腦上一個常問的問題,究竟
硬碟上應貯存多少個字,方可敷一般使用?
目前在台灣使用 13,051個規範字,其中包括 5,401個常用字,7,650個次常用字;在大陸則使用
7,000個通用字,其中包括 3,500個常用字。就 13,051
個字言,究竟有多少字用得到呢,也許從未有人去統計過,讀者不妨自行測試一下,在
13,051
個字中有多少字認得出來;知道它們的讀音的,恐怕更少了。甚至你會覺得有些字是怪里怪氣的,你可能從未見過這樣的字
: 臩 臦 舝 疀 蠿 綔 朢 攳 臮 滛
另一方面,有些很普通的字你卻找不到,例如: 以台灣標準來說,紈絝子弟的"絝",台灣名人王建煊的"煊",其他俗體字
,如
---
竖 个 绣 坟 凭 况 着 烟 够 猪 灵 踪 却 脚 葱 宝 减 袜 邻 猫 粮 耻 众 体
即: (豎 個 繡 墳 憑 況 著 煙 夠 豬 靈 蹤
卻 腳 蔥 寶 減 襪 鄰 貓 糧 恥 眾 體)
更不會收入所謂「正體字」之內。但這些俗體字,卻是與我們的日常生活為伍,我們豈能予以忽視!
2.0 重要漢字字典所收的字數統計
字書 字 數 編者 |
公元 100
說文解字
9,353 許慎 |
1716 康熙字典
42,174
張玉書等 |
1915 中華大字典
44,908
中華書局 |
1969 中文大辭典
49,888
張其昀等 |
1985 現代漢語大字典
56,000
在大陸出版 |
很顯然的,大字典裡眾多的字是並不常用的,因為漢字組詞的能力很強,幾千個常用字就可組成幾萬個詞,而這已足夠日常生活使用;但合理的通用字數究應多少呢?
現在先把近年來大陸及台灣所公布的標準通用字的字數,列之如次
:
1964年
大陸公布了<印刷通用字字形表>,共收了 6,196字。𠎀
1972年
台灣清華大學綜合了各方面的字彙資料,曾作電腦用字研究,最後共得
8,532個字。𠎀
1981年
大陸發布的國家標準 GB-2312-80<信息交換用編碼字符集>,共收了6,763
個字。𠎀
1980年代
大陸作現代漢語頻率研究,從各科各門合計二千餘萬字的資料中,獲得七萬多條詞,其中只用約
5,000 個字。𠎀
1986年
台灣頒布了規範的標準字 13,051 個,其中包括常用字
5,401個,次常用字 7650 個,這是繁體字的最新標準。𠎀
1988年
大陸頒行了 <現代漢語通用字表> 共 7,000個,
其中包括常用字 3,500個,這是簡化字的最新標準。𠎀
3.0 合理的通用字字數
這兒所謂的「通用字」,是指常用字加上必要的次常用字而言
。𠎀
筆者曾把台規的常用字
5,401 與大陸的常用字 3,500 併合,淨得 5,451字,因此可以推估一般常用字,約在
5,500 左右。 筆者又把台灣規範的常用字
5,401 與大陸的通用字併合,可得 7,380個字。(其中包括繁簡體各個對應的
2,330 組)。若再加上大陸未收集的,但在台灣規範之內字頻較高的次常用字,則通用字的總數應不會超過
8,000字。𠎀
台規次常用
7,650字,可能有一部分將移入「備用字」內,估計「備用字」數目,約在五千之譜。合計通用及備用字的總數,當在
13,000 上下,這也是一般字典所收集的字數。𠎀
有人說漢字「生而不報,死而不葬」
,所以字數會不斷的增加。筆者倒認為漢字猶如水庫,水庫裡的水是不會流掉的,漢字無論存廢,都會貯藏在字庫內。字庫雖然龐大,其實我們都只飲「一瓢水」而已。因此如何建造一個大小適當的「字池」
,並把它依用字的頻率,加以分級隔離,這才是解決字量過多問題的重點。𠎀
依據前面所述𥕢不妨把我們的結論𥕢以圖繪說明如次
--
| 常用字 5500 |
次常用字 2500 |
備用字 5000 |
|<------
通 用
字 8000
------------>|<-------------------->|
| (包括約 2330 組繁簡体)
| (包括專門用字) |
|<--------
合計通用及備用字檔, 共 13,000 字 ------>|
4.0 結語
個人以為較科學的作法是,收集現有
一般出版物的通用字範圍
,依據用字頻率,加以整理歸納;
藉以驗證已頒行的 <通用字表> 的字數𥕢是否實用合理。另一方面,通用字以外的「備用字」,也應加以編輯,「備用字」的內涵,應較為完備,須包含一般古書裡的用字
,以及專門類科的普通用字。𠎀
就筆者所知,罕用字大多來自人名
,有些人喜歡古雅,孩子一出生,就在古書上挑出罕用字為名,其實這對於自已及別人都不方便,試想別人叫不出來的名字,對自已有什麼好處呢?
在這一方面,應仿照日本的做法,在向戶籍單位報戶口時,即給予限制,堵住罕用字的來源,就可避免 <通用字表> 的不必要的字數增加。 通用字減至約
8,000字之後,可以減少電腦輸入的同碼(音)字,此字數應足敷一般使用,至於特殊作業,則可增用分開的「備用字」檔。這樣分檔處理,比較實用方便,是值得我們研究實施的
。𠎀