兰卡斯特大学语料库语言学入门课程系列(1)
(2014-01-28 10:49:20)
标签:
文化 |
分类: 语料库话题 |
课程内容概要:part 1 why use a corpus? 正如McEnery在讲座中提高的那样,语料库不是一种理论,而是一种方法(a methodology),那么为什么要选择语料库,而不是其他的方法呢?Part 2: annotation and mark-up 语料库蕴含着丰富的语言信息,但是,要更好运用,更加有效分析语料样本,需要给语料加标注。标注的方式有tag,markup和annotation三种说法。McEney博士讲解和展示了词性标注,句子标注和head标注等内容。Part 3: types of corpora 语料库有很多种类。根据不同的研究目的,可以构建不同种类的语料库。McEney博士提高的其它语料库都是常见的,象multilingual语料库,historical和diachronical语料库,以及monitor语料库不太常见,因为这几类语料库比较特殊。Part 4: frequency data, concordances and collocation McEney博士从最基本,最简单的频率(frequency)开始,他展示了wash这个动词的词频,以及wash分布情况,每百万词使用的次数等等;其次,McEney介绍了concordance(索引)这以概念。所谓索引就是将一个关键词的预警(context)展示出来,其目的是便于研究者分析关键词和预警之间的关系,为了便于分析,通常我们会动用语料工具上的一个叫sort(重排)的功能。通过对关键词左边和右边的语境进行重排,我们可以发现更多关于关键词使用的情况;最后一个概念是collocation,即搭配。简单地说,搭配即是共现,不过,搭配有强度大小之分,McEney博士用了Mutual Information来展示wash在BNC中不同搭配强度的词。可见,语料库视角下的搭配并非简单的有无那么简单,而是需要区分强弱,分出典型和不典型的搭配。接近结尾的时候,McEney博士回到了频率这一参数上了,通过频频我们还可以考察某些社会语言学的信息,比如女性和男性提到wash这词的情况不同,可以反映男性和女性的社会角色的差异。McEney博士统计出BNC中,每百万词中女性用了91.2次,男性用36.17次,仅仅通过频率就可以让我们对女性的角色有了一个初步判断,如果结合语境(或者concordance),获得信息会更多。