加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

巨型语料库iWeb_corpus

(2020-06-14 09:29:46)
标签:

iweb

corpus

davis

分类: 语料库话题
     过去我们还在为亿词级的语料库而惊讶的时候,今天14亿词的语料库已经成为现实。
      昨晚听了上海外语教育影像出版社组织的公益讲座。主讲为Mark Davis。Davis教授为大家所熟悉。他是杨百翰大学教授。他先后创建了杨百翰大学系列语料库。Davis教授所创建的语料库均通过网络界面进行检索。这其中嵌入了WordNet的词义标注,因而杨百翰大学系列语料库一个重要的特点是,除了搭配,词性标注等特征外,查找同义词,或者通过同义词标注来进行查找是该系列语料库的特色。
       Davis教授搭建了一个比较好的语料库平台。在这一平台上,他不断扩展不同功能的语料库。除了通用语料库COCA,还有历时英语语料库,维基百科语料库,电视语料库,电影语料库,美国肥皂剧语料库,全球英语语料库。
      经过多年探索和积累下,2017年Davis创建了一个具有革命性的语料库iWeb Corpus。说是革命性,因为该语料库集合了不少人工智能的成果。语料库名称中的i就是intelligent的意思。经过Davis的演示和讲解。对该语料库略有了解。
      除了以往我们比较熟悉的功能外,iWeb oCorpus还具有对词汇或者短语进行翻译(当然是机器翻译),图片演示,视频演示,查询搭配,所使用的话题环境等功能。另外,用户还可以根据需要组合虚拟语料库。比如,用户通过neuclear power就可以将那些和核能相关的文本组合成一个虚拟语料库。这通常是一个比较,针对某个专题的专用语料库,因为iWeb Corpus是一个拥有14亿词的语料库,又嵌入了人工智能,因而可以随意组合成不同的专用语料库。
      iWeb Corpus可以用于英语研究教学,学习以及语言方面的研究。
      iWeb Corpus 网址:https://www.english-corpora.org/iweb/

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有