古籍用字字頻的統計
1.0 . 提要:這是筆者對前二篇 <一般古籍用字量統計>、<古籍用字與現行通用字比較> 的補充資料,進一步的統計了古籍用字的字頻。前二篇曾在”北大中文論譚”提出,參見 ---
http://www.pkucn.com/viewthread.php?tid=247004&extra=&page=1
http://www.pkucn.com/viewthread.php?tid=248240&extra=&page=1
2.0 重新統計結果
用字量統計如果沒有字頻這項 ”函數”,會有輕重不分的缺憾。因此重新作了這項統計。所用”文本”與前大同小異,刪除了<大戴禮記>,因為它不在十三經之內,增加了古代字書<爾雅>。另一點與上次統計不同的是,用字紀錄內照原稿保留了少數簡化字,不作轉換。文本共計40種,總字數約650萬,下表是重新統計的結果:
典籍類別 |
文本字數 |
用字量 |
經類 |
605,827 |
5,582 |
史類 |
2,296,144 |
7,442 |
子類 |
717,057 |
5,770 |
集類 |
2,859,622 |
8,929 |
經史子集(全) |
6,478,310 |
11,070 |
全集+爾雅 |
6,489,768 |
11,522 |
3.0 統計的方式
各文本紀錄重復字的數目,並自動累加而得。字頻表達的方式有二:其一是該字在文本中出現的次數,其二是該字的千分率 (0.1%),例如 經類 前20字的字頻是:
之 23433 |
之 38.68 |
不 11253 |
不 18.57 |
也 10905 |
也 18 |
以 10794 |
以 17.82 |
其 10222 |
其 16.87 |
子 10155 |
子 16.76 |
人 10137 |
人 16.73 |
而 9453 |
而 15.6 |
曰 7941 |
曰 13.11 |
於 7912 |
於 13.06 |
有 6459 |
有 10.66 |
者 5972 |
者 9.86 |
為 4859 |
為 8.02 |
則 4788 |
則 7.9 |
大 4725 |
大 7.8 |
公 3784 |
公 6.25 |
君 3562 |
君 5.88 |
無 3532 |
無 5.83 |
夫 3035 |
夫 5.01 |
王 2949 |
王 4.87 |
如上表, “子”字在經類文本605827中出現10155次,即千分之16.76
或1.676%
(10155/605827=0.01676);”夫”字出現3035次,或千分之5.01。
4.0 古籍用字11,522的字頻
字頻大的以千分率表示,小的以在文本(650萬字)中出現的次數表示。
a. 字頻在千分之 24.09 (之)至0.01(昕)的有4864字,詳見筆者網頁 ---. http://chinese.exponode.com/9_3.htm
下表100字是示例。
之 24.09 |
不 15.04 |
曰 14.05 |
也 13.2 |
以 12.07 |
而 10.9 |
人 10.26 |
為 9.46 |
其 8.79 |
子 8.68 |
有 8 |
者 6.81 |
於 6.48 |
王 6.32 |
一 5.14 |
下 5.1 |
大 4.98 |
上 4.81 |
是 4.62 |
無 4.57 |
天 4.44 |
十 4.39 |
所 4.28 |
公 3.95 |
中 3.73 |
三 3.59 |
則 3.53 |
二 3.47 |
與 3.44 |
道 3.35 |
此 3.34 |
年 3.22 |
君 3.18 |
言 3.16 |
得 3.07 |
故 3.04 |
可 3.03 |
將 3.02 |
在 2.99 |
國 2.97 |
自 2.97 |
的 2.95 |
見 2.9 |
事 2.77 |
行 2.76 |
相 2.71 |
如 2.7 |
時 2.67 |
至 2.65 |
來 2.64 |
本 2.63 |
五 2.61 |
使 2.57 |
生 2.47 |
書 2.46 |
文 2.45 |
太 2.44 |
夫 2.41 |
出 2.41 |
能 2.39 |
臣 2.39 |
何 2.37 |
日 2.36 |
山 2.32 |
侯 2.3 |
知 2.29 |
後 2.22 |
四 2.2 |
我 2.19 |
皆 2.19 |
說 2.15 |
然 2.15 |
了 2.13 |
謂 2.1 |
軍 2.09 |
帝 2.06 |
乃 2.04 |
長 2.02 |
又 2.01 |
矣 2.01 |
明 1.97 |
作 1.97 |
去 1.96 |
今 1.95 |
地 1.92 |
月 1.9 |
百 1.83 |
漢 1.83 |
家 1.8 |
民 1.76 |
東 1.76 |
從 1.75 |
傳 1.71 |
欲 1.71 |
非 1.71 |
士 1.68 |
南 1.67 |
當 1.66 |
注 1.65 |
諸 1.63 |
入 1.63 |
安 1.61 |
用 1.58 |
成 1.58 |
兵 1.57 |
令 1.57 |
未 1.57 |
及 1.56 |
陽 1.55 |
必 1.54 |
西 1.54 |
已 1.54 |
善 1.53 |
秦 1.53 |
馬 1.53 |
死 1.53 |
若 1.52 |
乎 1.52 |
高 1.52 |
方 1.49 |
心 1.49 |
主 1.49 |
亦 1.48 |
齊 1.47 |
六 1.47 |
字 1.47 |
禮 1.47 |
楚 1.46 |
武 1.46 |
先 1.44 |
立 1.43 |
世 1.43 |
水 1.43 |
他 1.42 |
小 1.42 |
多 1.41 |
名 1.41 |
陵 1.4 |
聞 1.39 |
周 1.36 |
門 1.36 |
官 1.35 |
數 1.35 |
都 1.34 |
于 1.34 |
命 1.32 |
城 1.29 |
萬 1.28 |
德 1.28 |
同 1.25 |
b. 字頻較小但出現次數在2以上的有4882字,下表100字是示例,詳見筆者上述網頁。
愀 32 |
爇 32 |
狶 32 |
轢 32 |
壚 32 |
劄 32 |
撩 32 |
崛 32 |
姧 32 |
鵑 32 |
腎 32 |
惋 32 |
碕 32 |
蛛 32 |
价 32 |
培 32 |
朧 32 |
鑼 32 |
漪 32 |
跗 32 |
櫺 32 |
舸 32 |
凳 32 |
呻 32 |
貙 32 |
擋 32 |
蕘 32 |
歹 32 |
蟹 32 |
瀕 32 |
曶 32 |
邂 32 |
燠 32 |
諄 32 |
狽 32 |
阱 31 |
駛 31 |
燋 31 |
瑒 31 |
淅 31 |
磑 31 |
串 31 |
嗽 31 |
鄯 31 |
蝣 31 |
倜 31 |
賃 31 |
窅 31 |
稿 31 |
珂 31 |
篠 31 |
嘩 31 |
膻 31 |
鯤 31 |
叵 31 |
錘 31 |
杌 31 |
庳 31 |
爚 31 |
飴 31 |
篪 31 |
飼 31 |
魑 30 |
槽 30 |
鴃 30 |
姪 30 |
扰 30 |
杲 30 |
牷 30 |
唳 30 |
厝 30 |
呷 30 |
矗 30 |
咆 30 |
洵 30 |
舡 30 |
蝮 30 |
呴 30 |
蹔 30 |
捻 30 |
嚻 30 |
嘒 30 |
蒜 30 |
琁 30 |
葳 30 |
萱 30 |
菡 30 |
簠 30 |
瀣 30 |
碌 30 |
窖 30 |
庰 30 |
皿 30 |
拈 30 |
灣 30 |
鑲 30 |
敻 30 |
啻 30 |
鸛 30 |
塾 30 |
.c. 在650萬字的文本中只出現一次的有1776字,詳筆者上述網頁。
下表為字例(100字)
矙 1 |
锾 1 |
諈 1 |
滖 1 |
虆 1 |
嚘 1 |
溹 1 |
键 1 |
褮 1 |
毼 1 |
铠 1 |
騥 1 |
螝 1 |
閴 1 |
搣 1 |
铨 1 |
鱞 1 |
螜 1 |
鞷 1 |
锹 1 |
諞 1 |
虇 1 |
踼 1 |
阠 1 |
螚 1 |
螔 1 |
煟 1 |
朹 1 |
虈 1 |
楪 1 |
搨 1 |
虍 1 |
镐 1 |
呎 1 |
饇 1 |
溦 1 |
锈 1 |
鸉 1 |
顜 1 |
螖 1 |
暆 1 |
锜 1 |
嚗 1 |
煚 1 |
锒 1 |
煣 1 |
犑 1 |
锚 1 |
溳 1 |
鸄 1 |
阊 1 |
佝 1 |
楀 1 |
鸅 1 |
獊 1 |
餪 1 |
籮 1 |
间 1 |
闻 1 |
犌 1 |
騝 1 |
镇 1 |
螛 1 |
韟 1 |
楥 1 |
阑 1 |
麠 1 |
椴 1 |
楘 1 |
螈 1 |
锨 1 |
鼞 1 |
証 1 |
镉 1 |
鷾 1 |
菔 1 |
鱴 1 |
豥 1 |
獥 1 |
豦 1 |
繑 1 |
佒 1 |
货 1 |
贫 1 |
资 1 |
癵 1 |
贼 1 |
誃 1 |
贳 1 |
犞 1 |
賌 1 |
严 1 |
坅 1 |
丽 1 |
举 1 |
夆 1 |
两 1 |
丝 1 |
专 1 |
犝 1 |
5.0
古籍用字與現行通用字比較
台灣通用字(13060)與古籍用字(11522)有交集的為10146字,占88%。其字頻從大到小都有,而字頻只出現1次的有 喎、虇、虈、鱀、椴、虆、忨、詄、袶、蠦…1095字,可見現行台灣通用字規範,己相當考慮到古藉用字。
古籍用字與大陸規範草案8300字的比較,有二種方式,(一)是把古籍用字簡化,(二)是把8300字繁體化,使二者立於同一基礎上比較。上次我採用(一)式,本次採用(二)式,把大陸8300字轉為繁體後,與古籍11522字作比較,有交集的為6911字,占了古籍用字的60%,卻占了規範字 (8300)的83%。可見大陸規範(8300)也有8成與古籍有呼應。
|
台灣規範13060 |
大陸規範
8300(缺3字) |
有交集的 |
10146 |
6911 |
交集占古籍用字 |
88%
[10146/11522] |
60%
[6911/11522] |
交集占現行通用字 |
78% [10146/13060] |
83%
[6911/8300] |
觀察大陸新公佈的<通用字草案>,在8300字中有58個類推簡化字尚未編碼,而其對應的繁體卻是有碼的。筆者不了解,為何這些罕用字需要類推簡化。照早期簡化類推先例是”常用字類推,而罕用字不類推”,例如 攙/搀,而巉不類推,镵則聲旁不類推。又如 撲/扑、樸/朴、僕/仆常用簡化,而 噗/噗、璞/璞、濮/濮、蹼/蹼…不常用不簡化。再如 溝/沟、構/构、購/购 常用簡化,而耩/耩、篝/篝、遘/遘、媾/媾…不常用不簡化。
若把類推限定在某一範圍,或某一原則,則草案中很多字可直接採用繁體,不必簡化。尤其那些只有形符不同的字(金/钅、糹/纟、魚/鱼、鳥/鸟…)實無類推簡化的必要。這樣做有三大好處:
1.
可使大陸通用規範字與古籍用字配合
2.
縮小兩岸規範字的字形差異
3.
減少unihan碼位的擴充。否則Ext.C、Ext.D…沒完沒了。
6.0 古籍用字統計的總結
現在我把有關古籍統計的3篇文稿,作個總結:
這不是一個嚴謹的精確的統計,文本是從網上隨機取樣的,其中有無錯字、缺碼並沒有校核。這更不是全面的統計,成千種的古籍中只選取40種。雖然如此,選錄的都是具有代表性的重要典籍;統計的結果也使我獲得了不少訊息:
1. 就一般通行的古籍(如四書五經、唐詩宋詞等)而言,古籍用字不會超過12000字。與台灣現行通用字有交集的約近九成。
2. 古籍用字中有不少異體及訛字存在,約占7%。
3. 我認為古籍整理應依其使用目的分為二類,其一供專家學者研究我國古代社會史用的,儘可能存真。其二供大眾閱讀認識傳統文化用的,儘可能通俗,把文中的訛字、異體訂正。
4. 通俗古籍版本可有簡體及繁體二種,為求正確對譯,當務之急,應先解決繁簡”非對稱”字的問題。(依筆者最新統計”一簡對多繁”有269字,”一繁對多簡”有19字)
5. 大陸通用字如需擴充,最好參照古籍用字或台灣規範擬訂,並依早年”常用簡化、罕用不簡化”的原則進行,以減少大陸、台灣以及古籍用字間的差異,為未來華夏”書同文”立下基礎。