加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

转载:杨百翰大学BNC语料库使用说明

(2018-12-25 23:07:04)
标签:

语料库

分类: 转载文章
杨伯翰大学语料库
https://corpus.byu.edu/



由美国杨伯翰大学Mark Davies教授开发,语料库库容量为3. 6亿词汇,涵盖美国1990年至2007年间的各种类型语料,是当今世界上最大的英语平衡语料库。与其它语料库不同的是,它是免费在线供大家使用,给全世界英语学习者带来了福音,是不可多得的一个英语学习宝库,也是观察美国英语使用和变化的一个绝佳窗口。借用其官网自己的一句介绍,来看看它有多火多强大啊:The most widely used online corpora -- more than 130,000 distinct researchers, teachers, and students each month.是的,一个月超过13万师生科研人员都在使用!


01:

主要搜索words、phrases、 lemmas、wildcards和其他更加复杂的字词

输入单词““mysterious”



得到相关结果在各子库中的频率,每百万词使用的频率:

02:

检索词组


如:输入词组“white+名词”

检索表达式为:white[n*]


得到的结果为white后面跟的名词短语。

03:


输入通配符


如分别输入un*ly和r?n*

结果为


以及

04:


输入lemma(即一个词的单复数、时态等所有形式)


如要得到sing这个单词的所有形式http://s15/mw690/001wYDrRzy7qfJXOcLY0e&690


如果想得到一个词的单复数、时态等所有形式,在输入时,在这个单词外加[ ]

05:


搜索搭配词和出现的频率


如“thick后面跟的名词”


或“smile前面跟的形容词”

06、输入某种词性且部分带有某些字母的命令

如要得到以un-开头、-ed结尾的所有形容词的所有形式

输入: un*ed.[aj*]

http://s13/mw690/001wYDrRzy7qfLgHras7c&690

又或得到动词+任何词+ground的所有词组

输入:[vv*]*[ground]

http://s15/mw690/001wYDrRzy7qfLgNAHc5e&690

前者用来研究词汇,后者用来查询特定词性的搭配。

07、搜索在子语料库(register)内出现的频率(或比较不同语域中的用法)。

如在Fiction和Newspaper子数据库中passionate后面可以跟任何名词的词及频率

Fiction:

http://s8/mw690/001wYDrRzy7qfLgRI8vf7&690

但是也可以之间对两者子语料库中它们出现频率的对比。

操作:分别选择section1&2

http://s14/mw690/001wYDrRzy7qfLh2pmRcd&690

08、比较近义词

如:近义形容词hot和warm后面所跟名词的区别

http://s13/mw690/001wYDrRzy7qfLhg5C4bc&690

在words的 方格里分别输入hot和warm,再在context方框里输入[nn*],表示后面所跟任何名词。当然也可以比较在某个子语料库中出现的频率比较。
http://s5/mw690/001wYDrRzy7qfLhviHGd4&690

09、比较反义词

如:woman和man前面所跟的形容词的区别

http://s9/mw690/001wYDrRzy7qfLhBm3uf8&690

在words的方格里分别输入woman和man,再在context方框里输入[aj*],选在左3,表示前面3个跨距内所有的形容词。当然也可以比较在某个子语料库中出现的频率比较。

10、搜索近义词

如:搜索beautiful的所有近义词

http://s8/mw690/001wYDrRzy7qfLKJaK3a7&690

规则:在words的方格里输入[=beautiful],表示和beautiful语义相近的所有形容词。

再如:搜索动词clean的所有近义词,

如下图:

http://s6/mw690/001wYDrRzy7qfLKOpP7f5&690

当然可以进一步搜索与clean语义相近的动词+the+名词的词组,[[=cleanl][v*] the [n*]

如下图:

http://s3/mw690/001wYDrRzy7qfLL3hNof2&690

http://s15/mw690/001wYDrRzy7qfLKVPkOce&690

http://s6/mw690/001wYDrRzy7qfLKZBsh45&690

BYU-BNC词性附码的使用

1

查询多义词特定的词性,如for

2

某个词前/或者后面特定词性的若干搭配词,如confidence 前的形容词

3

词性附码放置的位置Words或者context处

以上方法同样可以用于检索代表当代美国的语料库  

http://www. americancorpus.org/,

以及以不同年代的TIME做成的历史语料库

http://www .americancorpus.orgl

POST LIST词性

在语料库语言学中,词性标注(词性标注或后置),也叫做语法标记, 是在文本(语料库)中,根据它的定义,根据它的定义,以及它在短语、句子、或段落中与相邻词和相关词的上下文关系标记单词。


http://s13/mw690/001wYDrRzy7qfLL4Fqsbc&690

http://s6/mw690/001wYDrRzy7qfLLaSt765&690

转载自:“学术拓荒者”微信公众号

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有