加载中…
个人资料
高志军_PKU
高志军_PKU 新浪个人认证
  • 博客等级:
  • 博客积分:0
  • 博客访问:327,974
  • 关注人气:313
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

词汇难度分级

(2017-04-14 00:04:32)
标签:

词汇

语料库

分类: 技术写作
在我维护的一个技术传播微信群里,有人提问如何对词汇难度分级,将回答转录至此,供更多人参考。

对词汇分级的工具有几个,例如Range和AntWordProfile,不过背后的原理都类似,WP的分级也是参照的Range的。


Paul Nation教授对词汇分级分两个阶段

早期共分三级
Level 1 (1000个词族,来自1953年General Service List of English Words)
Level 2 (1000个词族,来自1953年General Service List of English Words)
Level 3 (570个词族,来自Coxhead的 Academic Word List)

Level 0(未登录词)

一篇文章送进去,即可给出在不同级别的分布情况。

词汇难度分级

一般认为,在Level1 和 Level2分布的越多文章越容易。不过这个词汇表,年代久远,很多人认为在现代社会的使用情况存疑。后来Paul教授做了改进,基于BNC语料做了词汇的分级,共分10级。

词汇难度分级
词汇表下载地址:Headwords of the first 10,000 words

基于语料库的方法更为科学根据Francis等人对Brown语料库的分析发现按照语料库中出现的频次从高到低排序2000个词汇覆盖语料库79.7%的词汇3000个词汇覆盖84%的词汇5000词覆盖88.7%,15851词覆盖88.7%。按照这个研究结论掌握了排名前2000的词汇即可看懂79.7的词汇。根据zipf-law,使用频率越高的词汇越简单。



据此一篇技术文档送入AWP,可以看出其在10个级别的分布如果大部分词汇都分布在前几个level的话则不必担心了。



另外,Flesch Grade Level Readability Formula可以估算出文章适合美国几年级的人阅读。美国国防部已将将其作为标准测试。


更多可以参考这里:http://www.readabilityformulas.com/flesch-grade-level-readability-formula.php



Range下载:http://www.victoria.ac.nz/lals/resources/range

AWP下载:http://www.laurenceanthony.net/software/antwordprofiler/



0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有