加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

漢字數量知多少

(2014-07-02 20:34:56)
标签:

漢字

漢字數量

文化

分类: 语言文字/汉字字源

【漢字正義】

漢字數量知多少

劉昌海


       漢字產生以後走过了一個四五千年不間斷的發展演變歷程。在這個漫長的歷史過程中,歷朝歷代產生的新字不計其數。至今,漢字的數量究竟有多少?或說兩三萬,或說三四萬,或說四五萬,甚至有說七八萬的,竟然沒有人那怕能大致地說清楚。那麼,漢字的數量真的就沒有一個相對確定的量級嗎?

        讓我們先來看看歷代字書(及韻書)的收字情況:

       (公元前1600~前1046年):甲骨文已發現單字4378(《甲骨文字編》,臺灣中央研究院歷史語言研究所李宗焜,2012年)。其中已識2000餘字,公認1000餘字。

        西周:《史籀篇》(周宣王期間,前827~前781:共十五篇,字數不詳。估計在15003000字之間。

       (公元前221年):《倉頡篇》(李斯、《博學篇》(趙高、《爰歷篇》(胡毋敬共計3300餘字。

        漢:《訓纂編》(楊雄,公元前53~公元18年)5340(已佚)

        漢:《說文解字》(公元100年,許慎著)9353加上重文(異體字)10,516字。

        晉:《字林》(公元514年,呂忱著)12,824(已佚)

        南朝·梁:《玉篇》(公元534年,著顧野王)16,917後增補至22561字)

        宋:《廣韻》1008年,陳彭年等編著)26,194字。

        宋:《集韻》1039年,丁度等編著)53,525字。

        宋:《類篇》1066年,司馬光編著)31,319

        明:《字彙》1615年,梅膺祚等編著)33,179字。

        明:《正字通》(崇禎末年,張自烈著)33,549字。

        清·《康熙字典》1716年,張玉書等編著)47,043字;

    1915年,《中華大字典》(歐陽博存主編)48,000餘字。

    1971年,《中文大辭典》(張其昀主編)49,888餘字。

    1993年,《漢語大字典》(徐中舒主編)56,000餘字。

    1994年,《中華字海》(冷玉龍主編)85,000餘字。

    2004年,臺灣網路版第5版《異體字字典》:106,230(其中正字29892個,異體字76338個)

    可是,漢字的數量,真的有麼多

    其實,當我們明白了漢字造字原理與方法清楚了漢字發展演變的來龍去脈,於漢字的數量的問題,就會有一個基本的判斷。

    在《漢字的造字理念與原則》一文中我們談到:漢字的具體構字方法是“六書”(其中的“假借”與“轉注”,是後起的二法)。也就是說,真正的漢字,得符合六書算數一個人隨便寫一個其構造不符合六書的要求使人無從解讀,那就不能算是一個真正的漢字。而歷史上這樣的很多,有些是俗字,有些是錯別字。所以,“有效漢字”的數量,其實可以有定數的

    這裏所說的“有效漢字”,主體是指符合六書的通用漢字很多字後世發生訛變,變得不符合六書了,也包括後世歷代沿用下來的俗字。

    下面,我們再來看看有關中國古籍的用字統計,看能不能找到確定漢字數量的線索。

中國古籍用字統計

 

成書年代

總用字量

不重複

用字量

尚書

先秦

24,538

1,941

易經

先秦

20,991

1,583

詩經

先秦

29,646

2,936

周禮

先秦

49,417

2,219

儀禮

先秦

56,758

1,522

禮記

先秦

98,081

3,016

公羊傳

先秦

44,338

1,645

穀梁轉

先秦

40,828

1,590

左傳

先秦

195,879

3,257

論語

先秦

15,918

1,382

爾雅

先秦

10,367

3,383

孟子

先秦

35,258

1,886

荀子

先秦

75,293

2,663

管子

先秦

126,286

2,882

韓非子

先秦

106,189

2,715

老子

先秦

5,437

824

莊子

先秦

65,231

2,924

墨子

先秦

76,240

2,511

楚辭

先秦

27,094

3,137

呂氏春秋

先秦

100,477

3,013

國語

先秦

70,389

2,620

山海經

先秦

31,030

1,999

淮南子

西漢

133,827

4,208

戰國策

西漢

122,529

2,774

說苑

西漢

112,254

3,271

全唐詩張籍卷

唐代

25,502

2,465

全唐詩白居易卷

唐代

189,154

4,750

杜甫詩

唐代

未詳

3,562

 

        由上表可以看出,我國歷代各類著作所用不重複字數很少有超過4000的,大多介於20004000之間,說明我國歷代社會常用字有一個恒量,3000左右。我國古代童蒙識字教材同時並用的總字數,恰30004000上下,說明當時圍繞漢字教育所進行的字頻研究和常用字研究,已經達到了很高的水準。

        有人曾統計過十三經(《易》《書》《詩》《周禮》《儀禮》《禮記》《春秋左傳》《春秋公羊傳》《春秋穀梁傳》《論語》《孝經》《爾雅》《孟子》)中不相同的單字數為6544字。因此,實際上人日常使用的漢字不過六七千上下而已。

       下面,我們再來分析分析大陸有關單位所作的漢字使用頻度統計資料

        現代語料字頻統計(清華大學)

        統計字數:6,763GB2313-80字元集)

        使用語料總字數:86,405,823字。

        古籍字頻統計(北京書同文數字化技術有限公司所,2004年)

        語料來源:

      《四庫全書》用字:總字數:698,076,596字:不重複單字:29,081字。

      《四部叢刊》用字:總字數: 90,616,538字;不重複單字:27,606字。

    二者合併:       總字數:788,693,134字,不重複單字:30,135字。

漢字使用頻度統計 

現代語料字頻

古籍字頻

(累加)

覆蓋率(﹪)

(累加)

(累加)

覆蓋率(﹪)

(累加)

500

78.532

500

67.19

1000

91.915

1000

80.96

1500

96.476

 

 

2000

98.388

2000

91.65

2500

99.244

 

 

3000

99.633

3000

95.66

3500

99.820

 

 

4000

99.916

4000

97.55

4500

99.965

 

 

5000

99.986

5000

98.55

5500

99.996

 

 

6000

99.999

6000

99.10

 

 

7000

99.43

 

 

8000

99.62

 

 

10000

99.81

 

 

13000

99.91

 

 

22000

99.99

 

 

 

 

 

 

 


 

        


        




  







      

        由現代語料字頻統計結果可看出:

       1,000個常用字,對語料的覆蓋率達到91.9%以上;

       2,500個常用字,對語料的覆蓋率達到99.2%以上;

       3,500個常用字,對語料的覆蓋率達到99.8%以上;

       4,500個常用字,對語料的覆蓋率達到99.9%以上;

        以後字數再增加,語料覆蓋率的增加就很少了。

        這與我國古時歷代社會常用字的數量基本一致。

        而對古籍字頻的統計,雖然統計字數擴大了將近5倍,達3萬多,但字頻與現代漢語相比,差別並不很大

       1,000個常用字,覆蓋率達到80.9%以上;

       2,000個常用字,覆蓋率達到91.6%以上;

       4,000個常用字,覆蓋率達到97.5%以上;

       6,000字,覆蓋率達到99.1%以上;

       8,000字,覆蓋率達到99.6%以上;

       13,000字,覆蓋率達到99.9%以上;

        以後字數再增加,語料覆蓋率的增加就很少了。

    如果拋除古籍中大量的異體字、俗字,則古今語料漢字的使用頻度基本一致。

    1988年,大陸發布的收錄3500字的《現代漢語常用字表》(常用字2500個、次常用字1000個)、以及收錄7000的《現代漢語通用字表》(含《現代漢語常用字表》中的3500字),就是依據上述漢字字頻統計相關的資料制定的。

    2013年,大陸又發布了《通用規範漢字表》,將收字數量提高到8105(其中一級字仍為3500

     香港城市大學研究中心的Benjamin K. Tsou教授關於漢字信息熵的研究表明:隨著漢字容量增大到一定數量級,信息熵的增加趨緩;當漢字增加到12,370個以後,不再使信息熵有明顯的增加。據此,有關專家認為:漢字的容量極限為12,366個。

        所謂信息熵,是指信息中排除了冗餘後的平均信息量。信息熵越高,意味著能傳輸的信息越多;信息熵越低,意味著能傳輸的信息越少。

 由以上介紹可知,有效漢字的數量,也就在13,000左右。

    對於通常的出版印刷、信息處理、姓氏人名、地名、科技術語等方面的用字需要,8000通用漢字基本上都能滿足。

        對於專業人員而言,掌握40004500個漢字足矣;

        而對於普通人士,掌握25003500個漢字,則基本上就能滿足正常的工作與閱讀需要。

        所以,2007(民國民國九十六年)臺灣《國語小字典》第二版,收字4,305個。

1997(民國民國八十六年)臺灣教育部的《重編國語辭典修訂本》,收字11,930個;另有異體字1,848個,共計13,778字。

    2011年大陸第十一版《新華字典》,收字11,200餘個。 

        所以,那些所謂的漢字的數量有幾萬個,甚至是上十萬個的說法,是不能成立的。因為,那其中的絕大部分,或是異體字,或是俗字,或是錯別字,還有大量的死字(歷史上曾經出現過而後世廢置不用的字)

        (2014-07-02;刘冰清编辑

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有