一般古籍用字量的統計

1.0 引言   2.0 統計的樣本   3.0 經類用字量   4.0 史類用字量   5.0 子類用字量

   6.0 集類用字量    7.0 經史子集用字表及圖      8.0  結語      9.0 後記

 

1.0 引言

我國歷史悠久,古文化燦爛奪目;流傳下來的典籍,其數量真是汗牛充棟,其涵則是浩瀚無邊。以清代整理過的四庫全書”來估計:就有書籍3503種,36,304冊,79,337卷,近230萬頁,約8億字。但就一般較為通行的典籍來說,如四書、五經、老莊哲學等,還是歷歷可數。一般典籍究竟用了多少個漢字?是否可以量化統計,並得出一個近似的數目,是本文討論的重點,也是筆者多年來想做的一件事。如今拜古籍電子化之賜,這件事總算可以進行了。

本文中所謂文本字數”指除去標點符號之外的全書文本字數,所謂用字量指一本書用了多少個不重復的唯一的(unique)字。例如老子<道德經>,全書文本字數5,635;不重復的用字量815個,列之如次:

老子<道德經> 用字量815字:              

                                                                                              

                                                                                              

                                                                                              

                                                                                              

                                                                                              

                                                                                              

                                                                                              

                                                                                              

                                                                                              

                                                                                              

                                                                                              

                                   使                                                           

                                                                                              

                                                                                              

                                                                                              

                                                                                              

                                                                                              

                                                                                              

                                                                                              

                                                                                              

                                                                                              

                    退                                                                          

                                                                                              

                                                                                              

                                                                                              

                                                                                              

                                                                                              

                                                                                              

                                                                                              

                                                                                              

                                                                                              

                                                                                              

               滿                                                                               

                                                                                              

                                                                                              

                                                                                              

                                                                                               谿

     輿                                                                                         

                                                                                              

                                                                                              

                                                                      𥡴    

 

2.0 古籍用字統計的樣本

比照<四庫全書>分類法,把選錄的典籍樣本,分為 經、史、子、集4類:

   典籍名稱                        各書文本字數        備注

1           大學                                 1,827                        禮記中的一篇

2           中庸                                 3,756                        禮記中的一篇

3           論語                                 16,114                     

4           孟子                                 37,244                     

              四書                                 58,941                     

5           周易                                 18,437                      含易經,彖傳,象傳,繫辭

6           詩經                                 32,962                     

7           尚書                                 25,946                     

8           周禮                                 96,520                      周禮,儀禮,禮記合稱三禮

9           儀禮                                 55,384                     

10         禮記                                 101,632                  

11         大戴禮記                        38,215                      三禮之外的禮書,加入統計

12         春秋左傳                        198,180                   春秋三傳以左傳為代表

13         孝經                                 1,884                        孝經是十三經之一

              五經                                 569,160                  

              經類(四書+五經)          628,101                  

14         史記                                 580,171                  

15         戰國策                             126,795                  

16         漢書                                 804,156                  

17         三國志                             651,854                  

18         唐紀                                 154,394                   選錄卷1 15

              以上史類                        2,356,592               

19         荀子                                 76,802                      非正統儒家代表

20         老子道德經                    5,635                       

21         莊子                                 67,495                     

22         墨子                                 81,185                     

23         韓非子                             110,644                    法家代表

24         管子                                 129,731                   法家代表

25         孫子兵法                        6,150                       

26         淮南子                             132,932                   雜家代表

27         鬼谷子                             8,210                        雜家代表

              以上子類                        618,784                  

28         楚辭                                 15,282                      摘錄離騷,九歌,天問等10

29         古詩19                      9,492                        外加賞析

30         全唐詩(16-100)        289,343                   全書共300

31         唐宋名家詞選                57,787                      900餘家

32         牡丹亭                             78,408                      明代傳奇

33         太平廣記(1-80)        569,334                   附白話翻譯,全書500

34         水滸傳(1-40)       256,577                   全書120

35         聊齋志異(1-4)     127,045                   全書12

36         山海經                             30,493                     

37         世說新語                        60,969                     

38         昭明文選                        790,552                   選錄 ,,,,,等篇

39         古文觀止(6-12)        69,463                      選秦漢後的文章

              以上集類                        2,354,745               

              經史子集合計                5,958,222               

以上經、史、子、集,合計39種,約600萬字,作為統計用字量的依據。中國古籍數量龐大,選錄的樣本很難說可以概括古文化的精粹,但可認為具有相當的代表性。另一方面,選用古籍並非全以價值作判斷,以章回小說為例,<紅樓夢>比<水滸傳>在文學評價上要高很多;但前者出書晚,接近於現代作品,故不予以選用。

 

3,0  經類用字統計

人們慣稱的 十三經包括 易、詩、周禮儀禮禮記左傳穀梁傳公羊傳論語孟子孝經爾雅是由漢代的 五經逐漸發展而來的。漢時以 易、詩、書、禮、春秋 為五經,立於學官。唐時 <春秋> 分為三傳,即 左傳、公羊傳、穀梁傳;<禮經> 分為三禮,即 周禮、儀禮、禮記。這六部書再加上 易、書、詩,並稱為九經,也立於學官,用於開科取士。唐文宗開成年間,在國子學刻石,內容除了九經之外,還加上了 論語、爾雅、孝經。宋代列 <孟子> 於經部,與 易、書、詩、三禮、春秋三傳、論語、孝經、爾雅,合稱為 十三經。它是儒家基本的典籍,也是我國傳統文化的主要傳承。(以上摘自維基百科)南宋碩儒朱熹以<禮記>中的 大學、中庸,與 論語、孟子 並列,形成了今天人們所熟知的 四書因此 四書實際上也是屬於類的儒家典籍。

因為“十三經”在儒學典籍中的尊崇地位,除<公羊傳>、<穀梁傳> 因與<左傳>有同質性不予錄取,<爾雅>是字書,不宜列入計算之外,其他經籍”各書,均選作為統計用字量”的樣本。此外,筆者也把尚存的<大戴禮記> 40篇,加入統計的資料中。

在經籍中,人們對於三禮”(周禮、儀禮、禮記)最易混淆,以下摘述三禮”的大要:

<周禮> 原名周官,記載的是周朝的官制,並非真正的禮文,因為古代對於禮字的解釋涵義甚廣,即使典章制度規範等,也都可以稱為禮,所以崇古的王莽把<周官>改為<周禮>本書涉及官制、田制、兵制、刑法、禮儀等諸多方面,蘊藏著戰國以前政治、經濟、軍事、文化史料。

<儀禮>內容記載著周代的各種禮儀,其中以記載士大夫的禮儀為主。秦代以前篇目不詳,漢代初期高堂生傳<儀禮>十七篇。由於<儀禮>記載著古代禮節,它才是古代不折不扣的禮經。

<禮記>當是孔門弟子,聽孔子傳授禮節課程,因而筆記成書,或是後期孔門弟子,把這些禮學”蒐集起來的文獻。漢朝學者戴德將它簡化為85篇,稱為大戴禮記;其姪戴聖又將它刪減,得46篇,再另加上月令”等三篇,一共49篇,被稱為小戴禮記。前者內容有部分已經亡佚,而後者卻悉數保存下來,因此,後世治<禮記>的學者,大多以<小戴禮記>為主。<禮記》一書,不僅談儀禮動作,亦論及儒家之教,如禮運大同篇常為後人所樂道;大學、中庸二篇且被單獨抽出成為儒學的<四書>

<尚書>,古時凡公文及函札皆名為。尚書諸篇,大部分為古代之公文書札,漢初始有「尚書」之稱。後世因其為羣經之一,故又稱之為「書經」。

 

經類各書的用字量,統計如下表所示。

 

經類(四書+五經)     全書字數A             用字量(unique)B

大學                            1,827                        405

中庸                            3,756                        683

論語                            16,114                      1,365

孟子                            37,244                      1,897

四書                            58,941                      2,332

周易                            18,437                      1,257

詩經                            32,962                      2,852

尚書                            25,946                      1,928

周禮                            96,520                      2,192

儀禮                            55,384                      1,522

禮記                            101,632                   2,975

大戴禮記                   38,215                      2,150

春秋左傳                   198,180                   3,175

孝經                            1,884                        378

五經                            569,160                   5368

經類合計                   628,101                   5,519

 

經類用字列之如次(部分):

經類用字表5518  (文本字數628,101) 

                                                                                              

                                                                                              

                                                                                              

                                                                                              

                                                                                              

  [示例,全表參見附件]

 

4.0 史類用字統計

二十四史卷帙浩繁,真不知如何下手摘錄選用。因經籍多出自秦漢之前,同時代的史書,應為重點資料。<春秋左傳>己列入 經類”統計,<史記><漢書>自應列為首選。選用<戰國策>是因為它引用了詩、書、成語和民間謠諺,把古語、口語、警語等,共冶一爐,語料可貴。採錄<三國志>是因為那一段歷史風雲人物眾多,而不少人名都是罕見的字。中古史方面,我只是自<資治通鑑>中摘錄”唐紀”,自唐高祖武德元年(公元618)唐王克長安起,至則天垂拱二年(公元686)止,主要紀錄唐朝立國經過及 貞觀之治”的一些事蹟。

雖然選用的史料零星可數,文本的總字數卻己達230餘萬字,比經類文本的字數60餘萬字,還多了近3倍。以下把所選用的史料作個簡介。

史記 -- 漢·司馬遷作。它是一部貫穿古今的通史,從傳說中的黃帝開始,一直寫到漢武帝元狩元年,敍述了我國三千年左右的歷史。全書有本紀12,表10,書8,世家30,列傳70,共130篇。

漢書 --- 漢·班固首作。他的父親班彪是一個史學家,曾作 後傳”65篇來續補<史記><漢書>就是在 後傳”的基礎上完成的。班固因事入獄,死在獄中,書未編完,由他的妹妹班昭續作完成。 漢書包括本紀12,表8,志10,列傳70,共100篇。它的記事始于漢高帝劉邦元年,終於王莽地皇四年。<史記>是一部通史,<漢書>則是一部斷代史。

戰國策---漢劉向輯,33卷。依國別分為西周、東周、秦、齊、楚、趙、魏、韓、燕、宋、衛、中山十二策。主要記述了戰國時期縱橫家的政治主張和言行策略。本書亦展示了戰國時代的歷史特點和社會風貌。<戰國策>打破了 編年”的限制,以人物的遊說活動為中心。作者巧於比喻,善用寓言。又引用詩、書、成語和民間謠諺,把古語、口語、警語等共冶一爐,造成感人的力量。

唐紀 --- 摘自資治通鑑,通鑑為宋司馬光主編,294卷,為編年史,上起戰國周威烈王23年(公元前403),下終五代後周世宗顯德6年(公元959),計1320年史事。舉凡國家興衰、生民休戚,值得當朝借鑑之事,無不包括在內。所錄<唐紀>雖只是其中的15卷,但文本字數己達15萬 4千多。

 

史類各書的用字量,統計如下表所示:

                       全書字數A             用字量(unique)B        用字率 ( B/A)%

史記                            580,171                   4,832                            0.8

戰國策                       126,795                   2,787                            2.2

漢書                            804,156                   5,648                            0.7

三國志                       691,076                   5,102                            0.8

唐紀1-15                  154,394                   3,322                            2.2

史類合計                   2,356,592                7,156                            0.9

 

史類用字列之如次(部分):

史類用字表7173  (文本字數 2,356,592)

                                                                                              

                                                                                              

                                                                                              

                                                                                              

                                                                                              

 [示例,全表參見附件]

 

 

5.0 子類用字量統計

<四庫全書提要·子部總序>說:儒家之外,有兵家,有法家,有農家,有醫家,有天文演算法,有術數,有藝術,有譜錄,有雜家,有類書,有小說家;其別教則有釋家,有道家。敘而次之,凡十四類。”主張性善的孟子是儒家正統,他的著作己提升至 經”的位階;主張性惡的荀子,則成為非正統儒家的代表。就人性來說,人可以為善,亦可以為惡。就社會教育來說,基於性惡的法律制裁,可能比基於性善的道德勸說,更為重要,這就是我把<荀子>當作 子類”首選的理由。道家則選了老子、莊子,法家選了韓非子、管子。墨家以墨子、兵家以孫子為代表,應無疑義。雜家則選了”淮南子”及”鬼谷子”,並稍作簡介如次。

淮南子 --- 現存的<內篇>21篇中,除 原道淑真等屬道家思想外,天文時則等屬陰陽家思想,時則<禮記>月令篇同,說林說山等多為法家之言,兵略則為兵家之說,故漢志列之為雜家。全書雖以道家思想為主,而儒、法、陰陽諸家並呈,甚至不無矛盾對立之處。

鬼谷子--- 此書顯示縱橫家所崇尚的權謀策略及言談辯論技巧,與儒家所推崇之仁義道德大相徑庭。該書的現實意義在於:它是一部當代軍事、外交、商貿、公關等領域裏的雄辯大全。具體要求獻計進策者,要考慮到接受者的自身狀況,因人制宜,因時制宜。

 

子類各書的用字量,統計如下表所示:

                          全書字數A             用字量B             用字率 ( B/A)%

荀子                               76,802                      2,656                        3.5

老子道德經                    5,635                        816                           14.5

莊子                                 67,495                      2,925                        4.3

墨子                                 81,185                      2,522                        3.1

韓非子                             110,644                    2,700                        2.4

管子                                 129,731                   2,835                        2.2

孫子兵法                        6,150                        768                           12.5

淮南子                             132,932                   3,904                        2.9

鬼谷子                             8,210                        832                           10.1

子類合計                        618,784                   5510                         3.2

 

子類用字表列之如次(部分)

子類用字表5511 [文本字數 618,784]

                                        䤿                                                      

                                                                                              

                                                                                              

                                                                                              

                                                                                              

                                                                                              

                                                                                              

                                                                                              

[示例,全表參見附件]

 

6.0 集類用字量統計

集類主要選錄我國歷代的文學作品,包括 楚辭最早的辭賦集,浪漫主義文學的濫觴。古詩十九首東漢末年出現的淳樸的民間詩章。全唐詩:為唐詩總集,選錄16-100卷。唐宋名家詞選,輯唐宋詞人90 餘家,詞作近千首。牡丹亭:作者湯顯祖,明代傳奇戲劇的壓卷之作。太平廣記搜集了自漢至宋初的各種小說、筆記、野史等500卷,本文選錄了1-80卷。水滸傳:選第1至第40回,它是章回小說的代表。聊齋志異:選錄卷1至卷4,謮者若把書中的狐、鬼當作人來看,它是一串有趣的世俗故事。古文觀止:選卷6至卷12,多為秦漢之後的文章。昭明文選:乃自先秦至梁七百多年間130位作家的作品;選錄包括詩,賦,文,書,論等。世說新語:南朝宋劉義慶撰,三卷,記述東漢至東晉間的軼事瑣語。山海經:我國古代的地理神話筆記,成書於周秦之間,晉郭璞注;記載古代傳說中的山川、部族、物產、草木、鳥獸、風俗等,內容多怪誕靈異,保存了不少古代神話傳說及史地材料。

以上合計選錄集類書籍12種,文本字數共235多萬。統計的用字量如下表所示。

 

                           全書字數A        用字量(unique)B         用字率 ( B/A)%

楚辭摘錄                        15,282                2,381                             15.6

古詩19首賞析              9,492                   1,191                             2.0

全唐詩(16-100)        289,343              4,547                             1.6

唐宋名家詞選                57,787                2,848                             4.9

牡丹亭                             78,408                3,301                             4.2

太平廣記(1-80)        569,334              5,000                             0.8

水滸傳(1-40)       256,577              3,497                             1.4

聊齋志異(1-4)     127,045              4,248                             3.3

山海經                             30,493                1,880                             6.2

世說新語                        60,969                3,025                             5.0

昭明文選                        790,552              7,629                             0.9

古文觀止(6-12)        69,463                3,556                             5.1

集類合計                        2,354,745           9,279                             1.8

集類用字表列之如次(部分):

<集類>用字表 9253   [文本字數 2,354,745]      ]

                                                                                              

                                                                                              

                                                                                              

                                                                                              

                                                                                              

[示例,全表參見附件]

 

7.0      經史子集 用字量總表及圖示

 

   由上述各節歸納各類的用字量如次表:

典籍類

文本字數

用字量

四書

58,941

2,332

五經

569,160

5,368

經類

628,101

5,519

史類

2,356,592

7,156

+史

2,984,693

8,083

子類

  618,784

5,510

+史+子

3,603,477

8,785

集類

2,354,745

9,279

經史子集(全)

5,958,222

11,097

文心雕龍

408,482

 5,377

全集+文心雕龍

6,366,704

11,620

 

由上表可知,經、史、子、集 歸納之後的用字量為 11,084,文本字數近600萬字。表中的<文心雕龍>南朝·梁·劉勰所著,是我國第一部有系統的文學理論和批評巨著,算是專門典籍,並不列在一般古籍字量估計之內。倘若把它加入計算,用字量也只增加 65 字,達到 11,149,顯示用字量將隨著文本字數的增加,逐漸趨向於極限。觀察下圖曲線的趨勢,更加明顯。

 

再用另一個圖示來說明文本字數與用字量的關係

 

四書

經類

+

++

經史子集

+文心雕龍

 

58,941

628,101

2,984,693

3,603,447

5,958,222

6,366,704

X- 文本字數

2,332

5,518

8,098

8,801

11,084

11,149

Y-用字量

 

由上圖可知y-軸的 用字量增加率, 隨著 文本字數增加而趨於平坦,亦即折線變成水平。

這表示選錄的文本雖增加, 用字量卻逐漸趨於極限,不再增多,或增加很少了。

 

 

 

四書

經類

+

++

經史子集

+文心雕龍

 

4350

22779

44475

64436

107539

112916

x-,有重復字

2,332

5,518

8,098

8,801

11,084

11,149

y-,不重復字

 

上圖x軸數字,表示各類典籍未綜合統計前的個別用字量,例如四書內4種書籍用字量之和為4350,其中仍是有 重復的字,y-軸表示經過綜合後所得的不重復的用字量(2332)。本圖曲線的趨勢也是逐漸趨於水平,顯示古籍的用字量,倘若不計異體,筆者推估應約在12,000左右。

 

 

8.0  結語

1. 一般古籍用字量經過統計分析之後,得知約在11,200字左右。字表內容筆者尚未探究,其中可能還有異體存在。

2.  <四書>的用字量只有2332,其中部分章節,或可選作兒童的課外教材。在清末民初兒童的啟蒙教學,<三字經><四書>都是必修課。不過老師只教背誦,並不講解。

3. 經類(四書+五經)的用字量,約5500字,字量雖不算很多,但字卻不少,我們讀,還得借助於注釋的講解或字典的查檢。

4. 古籍中 <昭明文選><文心雕龍>等,所見的罕用字較多。<三國志>中罕用字多為人名,例如孫權的兒子孫休為他的四個太子取名字,都是罕見的生僻字,(電子書上大多留白)

5.  用字量的估計,原應把字書<爾雅>排除。現試把它加入估記,所得結果:用字量增至11,644,因此可以下個初步結論:一般古籍的用字量,估計約在12,000之譜。

6. 古籍用字11,644個,與台灣規範字13,057比較之後得出如下結果:二者相同而有交集的10,179字;二者不同的則分為兩類:台灣規範多了的2,878字,;少了的1465字。古籍用字,與兩岸現行規範字的詳細比較,容後另文探討。

7. 作為本文統計的樣本依據,是互聯網上的各種電子書籍,選錄的都是繁體版。雖然它們在出版之前,己經加以校對,難免仍有瑕疵,也有一些字在螢屏上是空缺的。筆者對於版本的正確性無從判斷,也不認為很重要;因為即使文本內容與原著有些出入,對於用字量的統計,其影響也是輕微的。字表內容尚待進一步校核,目前只可供作參考,請暫勿引用。

8. 個人力量畢竟有限,為求全面的精確的統計,這項工作應由集體來作。包括:更廣泛的古籍搜集與考訂,電子版的擴充與勘誤,更有效的統計程式編寫,準確的字表制作及其與現行規範字的比較分析,罕用(或異體)字的彙編並注明出處及釋義等等。

 

附件-經史子集用字量分類統計表,詳筆者網頁  http://chinese.exponode.com/9_1r.htm

 

9.0 後記

高層次的有實用價值的漢字字量究為多少?似乎還沒有一個正確的答案。台灣教育部整理漢字的結果得出近10萬個,但其中七成以上是異體。

就一般通行的主要古籍言(包括字書<爾雅>),一如本文所述,初步估計只約12,000個左右,即使把現行台灣規範13057 加上依本文所分析的不足的1465字,仍不及 15,000個。再加上專科用字,估計總字量(除去異體之後)也不應高達3萬個。也許全面性的古籍以及現代用字量的統計,才能獲得解答。

 

 <古籍用字表>的订正

我对于汉字繁简体并无偏见,这次<古籍用字>统计,采用繁体文本,主要原因是古籍原来用的是繁体字,这样做可以维持原貌。可是在制表时却发现有些繁体版本夹杂着简体字,而且推断是网上电子版错植的。

我的做法是,把这些简体恢复为繁体后,再用程序重新检出重复的字,此番订正主要是更正这项错鋘。毕竟夹带的简体无多,因此<新字表>内容与旧表相差不大。

新表内容摘要如下:

 

典籍类

文本字数

用字量

四书

58,941

2,332

经类

628,101

5,519

史类

2,356,592

7,156

子类

  618,784

5,510

集类

2,354,745

9,279

经史子集()

5,958,222

11,097

全集+文心雕龙

6,366,704

11,620(未列出)

 

全表参见笔者网页---

http://chinese.exponode.com/9_2r.htm