古籍用字字頻的統計

1.0 . 提要:這是筆者對前二篇 <一般古籍用字量統計><古籍用字與現行通用字比較> 的補充資料,進一步的統計了古籍用字的字頻。前二篇曾在北大中文論譚提出,參見 ---

http://www.pkucn.com/viewthread.php?tid=247004&extra=&page=1

http://www.pkucn.com/viewthread.php?tid=248240&extra=&page=1

 

2.0  重新統計結果

用字量統計如果沒有字頻這項 函數,會有輕重不分的缺憾。因此重新作了這項統計。所用文本與前大同小異,刪除了<大戴禮記>,因為它不在十三經之內,增加了古代字書<爾雅>。另一點與上次統計不同的是,用字紀錄內照原稿保留了少數簡化字,不作轉換。文本共計40種,總字數約650萬,下表是重新統計的結果:

 

典籍類別

文本字數

用字量

經類

605,827

5,582

史類

2,296,144

7,442

子類

717,057

5,770

集類

2,859,622

8,929

經史子集(全)

6,478,310

11,070

全集+爾雅

6,489,768

11,522

 

3.0  統計的方式

各文本紀錄重復字的數目,並自動累加而得。字頻表達的方式有二:其一是該字在文本中出現的次數,其二是該字的千分率 (0.1%),例如 經類 20字的字頻是:

23433

38.68

11253

18.57

10905

18

10794

17.82

10222

16.87

10155

16.76

10137

16.73

9453

15.6

7941

13.11

7912

13.06

6459

10.66

5972

9.86

4859

8.02

4788

7.9

4725

7.8

3784

6.25

3562

5.88

3532

5.83

3035

5.01

2949

4.87

 

如上表, 字在經類文本605827中出現10155次,即千分之16.76 1.676%

(10155/605827=0.01676)字出現3035次,或千分之5.01

 

4.0  古籍用字11,522的字頻

字頻大的以千分率表示,小的以在文本(650)出現的次數表示。

a.       字頻在千分之 24.09 ()0.01()的有4864字,詳見筆者網頁 ---. http://chinese.exponode.com/9_3.htm

 

下表100字是示例。

 

24.09

15.04

14.05

13.2

12.07

10.9

10.26

9.46

8.79

8.68

8

6.81

6.48

6.32

5.14

5.1

4.98

4.81

4.62

4.57

4.44

4.39

4.28

3.95

3.73

3.59

3.53

3.47

3.44

3.35

3.34

3.22

3.18

3.16

3.07

3.04

3.03

3.02

2.99

2.97

2.97

2.95

2.9

2.77

2.76

2.71

2.7

2.67

2.65

2.64

2.63

2.61

使 2.57

2.47

2.46

2.45

2.44

2.41

2.41

2.39

2.39

2.37

2.36

2.32

2.3

2.29

2.22

2.2

2.19

2.19

2.15

2.15

2.13

2.1

2.09

2.06

2.04

2.02

2.01

2.01

1.97

1.97

1.96

1.95

1.92

1.9

1.83

1.83

1.8

1.76

1.76

1.75

1.71

1.71

1.71

1.68

1.67

1.66

1.65

1.63

1.63

1.61

1.58

1.58

1.57

1.57

1.57

1.56

1.55

1.54

西 1.54

1.54

1.53

1.53

1.53

1.53

1.52

1.52

1.52

1.49

1.49

1.49

1.48

1.47

1.47

1.47

1.47

1.46

1.46

1.44

1.43

1.43

1.43

1.42

1.42

1.41

1.41

1.4

1.39

1.36

1.36

1.35

1.35

1.34

1.34

1.32

1.29

1.28

1.28

1.25

 

b.      字頻較小但出現次數在2以上的有4882字,下表100字是示例,詳見筆者上述網頁。

32

32

32

32

32

32

32

32

32

32

32

32

32

32

32

32

32

32

32

32

32

32

32

32

32

32

32

32

32

32

32

32

32

32

32

31

31

31

31

31

31

31

31

31

31

31

31

31

稿 31

31

31

31

31

31

31

31

31

31

31

31

31

31

30

30

30

30

30

30

30

30

30

30

30

30

30

30

30

30

30

30

30

30

30

30

30

30

30

30

30

30

30

30

30

30

30

30

30

30

30

30

 

.c. 650萬字的文本中只出現一次的有1776字,詳筆者上述網頁。

下表為字例(100)

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

 

5.0 古籍用字與現行通用字比較

台灣通用字(13060)與古籍用字(11522)有交集的為10146字,占88%。其字頻從大到小都有,而字頻只出現1次的有 喎、虇、虈詄、袶蠦…1095字,可見現行台灣通用字規範,己相當考慮到古藉用字。

 

古籍用字與大陸規範草案8300字的比較,有二種方式,()是把古籍用字簡化,()是把8300字繁體化,使二者立於同一基礎上比較。上次我採用()式,本次採用()式,把大陸8300字轉為繁體後,與古籍11522字作比較,有交集的為6911字,占了古籍用字的60%,卻占了規範字 (8300)83%可見大陸規範(8300)也有8成與古籍有呼應。

 

台灣規範13060

大陸規範 8300(缺3字)

有交集的

10146

6911

交集占古籍用字

88% [10146/11522]

60% [6911/11522]

交集占現行通用字

78% [10146/13060]

83% [6911/8300]

 

觀察大陸新公佈的<通用字草案>,在8300字中有58個類推簡化字尚未編碼,而其對應的繁體卻是有碼的。筆者不了解,為何這些罕用字需要類推簡化。照早期簡化類推先例是常用字類推,而罕用字不類推,例如 攙/,而巉不類推,镵則聲旁不類推。又如 ///常用簡化,而 /、璞/璞、濮/濮、蹼/蹼…不常用不簡化。再如 /// 常用簡化,而////…不常用不簡化。

若把類推限定在某一範圍,或某一原則,則草案中很多字可直接採用繁體,不必簡化。尤其那些只有形符不同的字(/、糹/、魚/、鳥/)實無類推簡化的必要。這樣做有三大好處:

1.    可使大陸通用規範字與古籍用字配合

2.    縮小兩岸規範字的字形差異

3.    減少unihan碼位的擴充。否則Ext.CExt.D…沒完沒了。

 

6.0 古籍用字統計的總結

現在我把有關古籍統計的3篇文稿,作個總結:

 這不是一個嚴謹的精確的統計,文本是從網上隨機取樣的,其中有無錯字、缺碼並沒有校核。這更不是全面的統計,成千種的古籍中只選取40種。雖然如此,選錄的都是具有代表性的重要典籍;統計的結果也使我獲得了不少訊息:

1. 就一般通行的古籍(如四書五經、唐詩宋詞等)而言,古籍用字不會超過12000字。與台灣現行通用字有交集的約近九成。

2. 古籍用字中有不少異體及訛字存在,約占7%

3. 我認為古籍整理應依其使用目的分為二類,其一供專家學者研究我國古代社會史用的,儘可能存真。其二供大眾閱讀認識傳統文化用的,儘可能通俗,把文中的訛字、異體訂正。

4. 通俗古籍版本可有簡體及繁體二種,為求正確對譯,當務之急,應先解決繁簡非對稱字的問題。(依筆者最新統計一簡對多繁269字,一繁對多簡19)

5. 大陸通用字如需擴充,最好參照古籍用字或台灣規範擬訂,並依早年常用簡化、罕用不簡化的原則進行,以減少大陸、台灣以及古籍用字間的差異,為未來華夏書同文立下基礎。