频率词典
标签:
频率词典冯志伟 |

与老伴摄于大连棒棰岛
频率词典
冯志伟
目前,世界上的频率词典已有许多种,分述如下:
I.普通频率词典:可以分为单语频率词典和多语频率词典。
⑴ 单语言频率词典: 又可以分为语义频率词典,成语频率词典和后缀频率词典。
①语义频率词典:维斯特 (M.West)编写了《通用英语词表》(《A General Service List EngIish Words》,1953年,London),该词典收集了2,000个最常用的英语词,对于每一个多义词,统计了它的每一个意义的频率。例如:
GAME这个多义词的意义如下:
这种语义频率词典,对于了解多义词语义的分布情况,显然是很有帮助的。
②成语频率词典:在桑戴克 (E.L.Thorndike)的倡议下,美国外语教学委员会于二十世纪二十年代出版了一系列外语成语频率词典。
例如,切依德勒 (F.D.Cheydler)的《法语成语词表》(《French Idiom List》,1929年,1930年,1940年,New York)。下面,列举出一些成语的绝对频率和序号:
avoir:il
y a (des plumes sur la table)
avoir:il a peur de
(tomber)
③后缀频率词典:如桑戴克的《英语后缀的教学》(《The Teaching of English Suffixes》,1941年,New York),在每一个后缀的后面,都注明由该后缀构成的词的数量,从而表示该后缀在英语中出现的频率。
⑵ 多语言频率词典
如伊彤 (H.S.Eaton)的《英语、法语、德语、西班牙语语义频率词表》(《Semantic Frequency List of English,French,German and Spanish》,1940年,Chicago)。在这部词典中,英语词的频率以Thorndike的《教师二万词词书》为依据,由于各语言所选的样本不一样,样本容量也不尽相同,因此,各语言中词的频率的相对误差是各不相同的。
Ⅱ.专业性频率词典。例如,别列斯涅夫(С.Д.Вереснев),索洛维耶娃(А.И.Соловьева)的《德语畜牧学频率词典》(Зоотехничесний частотный словарь немецкого языка,1968年,Москва),其样本容量为151,000个词,收单词2,050个,这些词按频率递减的顺序排列,最低的词的相对频率为0.00006(绝对频率为9),其排列形式如下:
词目
在这样的频率词典中,因为计算相对频率一般都用了四舍五入,这样,根据相对频率来计算绝对频率时将会产生小数。
远在1898年,德国语言学家凯定 (F.W.Kaeding)就编写了世界上第一部频率词典《德语频率词典》(Häufigkeitswörterbuch der Deutschen Sprache)。这部频率词典的样本容量为110万个词的文本,统计出每一个词在110万个词的样本中的出现次数。
本世纪初年,美国教育学家兼心理学家桑戴克先后编写了《教师二万词词书》(《Teacher's Word Book of 20,000 Words》)、《教师三万词词书》(《Teacher's Word Book of 30,000 Words》),做了大量的英语词汇的频率统计工作。
第一部汉语频率字典是我国教育家陈鹤琴先生编写的。解放前他在南京高等师范任教的时候,与助理员“足足做了两年艰苦工作,……,从554,478字中分析得4,261个单字”。不过,他编写的是汉语频率字典,不是汉语频率词典,汉语书面语言不是像印欧语那样分开词来书写的,词的切分是一个相当困难的问题,编写汉语频率词典,首先需要把汉语的单词从汉语书面文本中切分出来,而陈鹤琴当时不可能做到这一点。
1979年,北京语言学院(现在改名为“北京语言大学”)针对对外汉语教学的特点,把“现代汉语词汇统计研究”作为重点科研课题,开始进行规模较大的汉语单词的频率统计研究。这项研究工作,采用人工与计算机相结合的方式,对179篇样文、182万字的语料进行了词语切分、词频统计和数据分析的工作,统计的总词汇量为1,315,752词次,含不同单词31,159个,其中包括十年制语文课本(52万字,374,654词次)的字频和词频的定量分析,统计结果编成《现代汉语频率词典》出版。
他们选取的语料可以分为如下四类:
由于语料库语言学(corpus linguistics)的发展,语料库的容量不断扩大,现在,数千万词甚至于数亿词的语料库已经不算少见。
与当前语料库的容量比较起来,《现代汉语频率词典》所依据的语料规模是小了一些。不过,尽管这样,《现代汉语频率词典》在词频统计方面取得的成绩仍然是很大的。
n
n

加载中…