词汇难度分级

标签:
词汇语料库 |
分类: 技术写作 |
在我维护的一个技术传播微信群里,有人提问如何对词汇难度分级,将回答转录至此,供更多人参考。
对词汇分级的工具有几个,例如Range和AntWordProfile,不过背后的原理都类似,WP的分级也是参照的Range的。
Paul Nation教授对词汇分级分两个阶段
早期共分三级
Level 1 (1000个词族,来自1953年General Service List of English
Words)
Level 2 (1000个词族,来自1953年General Service List of English
Words)
Level 3 (570个词族,来自Coxhead的 Academic Word List)
Level 0(未登录词)
一篇文章送进去,即可给出在不同级别的分布情况。
一般认为,在Level1 和
Level2分布的越多文章越容易。不过这个词汇表,年代久远,很多人认为在现代社会的使用情况存疑。后来Paul教授做了改进,基于BNC语料做了词汇的分级,共分10级。
基于语料库的方法,更为科学,根据Francis等人对Brown语料库的分析发现,按照语料库中出现的频次从高到低排序,前2000个词汇,覆盖语料库79.7%的词汇,前3000个词汇覆盖84%的词汇,前5000词覆盖88.7%,前15851词覆盖88.7%。按照这个研究结论,掌握了排名前2000的词汇,即可看懂79.7的词汇。根据zipf-law,使用频率越高的词汇越简单。
据此一篇技术文档送入AWP,可以看出其在10个级别的分布,如果大部分词汇都分布在前几个level的话,则不必担心了。
另外,Flesch Grade Level Readability Formula可以估算出文章适合美国几年级的人阅读。美国国防部已将将其作为标准测试。
更多可以参考这里:http://www.readabilityformulas.com/flesch-grade-level-readability-formula.php
Range下载:http://www.victoria.ac.nz/lals/resources/range
AWP下载:http://www.laurenceanthony.net/software/antwordprofiler/