加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

兰卡斯特大学语料库语言学入门课程系列(1)

(2014-01-28 10:49:20)
标签:

文化

分类: 语料库话题

   兰卡斯特大学Tony McEnery主持的Corpus Linguistics在线课程在昨天开始上线第一周的Orientation部分。这一课程的前期宣传已于2013年11月份启动。当时从corpus4u上获得该消息,便上网注册了。随后多次收到课程的预告。从课程的介绍部分来看,似乎课程的内容属于比较基础的程度,但是,我还是对这一课程产生了浓厚的兴趣。其原因有三。

    一、虽然自己涉足语料库语言学这一领域已经有多年,对这一领域也有所了解。有些同事还非常客气地称我为这方面的专家。但是,我自己知道自己的底到底有多深。语料库语言学我是自学入门的,这么多年来,自己除了通过书本,网络获取语料库相关理论和方法方面的专业知识外,并从一些专家处获得不少帮助外,没有固定的老师给自己进行过系统的训练。那怕是最基础的系统课程也没有上过,所以,我从心里这希望有那么一位老师能够给我补补课,让我的基础更加扎实一些。兰卡斯特大学的语料库语言学入门课程也许是个不错的机会。

    二、基于语料库途径的研究往往经验对研究者的影响特别重要。很多情况下,自己摸索了很久,找不到解决问题的方法,旁人稍加指点,便豁然开朗。一个小tip让你峰回路转。原因是,基于语料库的研究实践性,操作性非常强,做这项工作既理论指引大的方向,也要经验解决微观的诸多问题。打个比方,做基于语料库研究的人员就象一名工匠,修修补补的工作要能拿得起才行。这是我选择这门课程的第二个原因。

    三、兰卡斯特大学为什么要免费为语料库研究者提供这样的免费课程?他们有时间完全可以去做自己的研究。看看futurelearn这个网站网址中的关键词futurelearn我们不难悟出其用意。记得看过一篇对未来网络时代发展的预测,教育等行业领域有可能会发生结构性的变化。也就是说,未来的教育是不是所有的学生都会坐在教室里来听老师的讲座?如果不是所有的学生都要到教室里来听讲座,而是在自己方便的时候通过网络来学习,那么他们选择的机会就会有很多。如果未来学生的选择机会有很多,他们完全可以象淘宝用户一样运用自己的选择权来决定教育服务提供者的生死存亡。

    当然,在今天,危机并没有完全兵临城下,我们也不知道未来的教育应该如何操作。但是,未来的机遇总是给那些有准备的人。我想兰卡斯特大学的捷足先登是有道理的。

    本周课程还是介绍性的。Tony McEnery的视频介绍了课程的内容概要,课程的学习方法和要求。听讲座,做笔记,加入讨论,课后阅读,做作业。这和传统的做法并没有太大的不同,不同的是,课堂和课下学习打破了时空的障碍。

    课程网址:https://www.futurelearn.com/courses/corpus-linguistics/todo/238

课程内容概要:part 1 why use a corpus? 正如McEnery在讲座中提高的那样,语料库不是一种理论,而是一种方法(a methodology),那么为什么要选择语料库,而不是其他的方法呢?Part 2: annotation and mark-up 语料库蕴含着丰富的语言信息,但是,要更好运用,更加有效分析语料样本,需要给语料加标注。标注的方式有tag,markup和annotation三种说法。McEney博士讲解和展示了词性标注,句子标注和head标注等内容。Part 3: types of corpora 语料库有很多种类。根据不同的研究目的,可以构建不同种类的语料库。McEney博士提高的其它语料库都是常见的,象multilingual语料库,historical和diachronical语料库,以及monitor语料库不太常见,因为这几类语料库比较特殊。Part 4: frequency data, concordances and collocation McEney博士从最基本,最简单的频率(frequency)开始,他展示了wash这个动词的词频,以及wash分布情况,每百万词使用的次数等等;其次,McEney介绍了concordance(索引)这以概念。所谓索引就是将一个关键词的预警(context)展示出来,其目的是便于研究者分析关键词和预警之间的关系,为了便于分析,通常我们会动用语料工具上的一个叫sort(重排)的功能。通过对关键词左边和右边的语境进行重排,我们可以发现更多关于关键词使用的情况;最后一个概念是collocation,即搭配。简单地说,搭配即是共现,不过,搭配有强度大小之分,McEney博士用了Mutual Information来展示wash在BNC中不同搭配强度的词。可见,语料库视角下的搭配并非简单的有无那么简单,而是需要区分强弱,分出典型和不典型的搭配。接近结尾的时候,McEney博士回到了频率这一参数上了,通过频频我们还可以考察某些社会语言学的信息,比如女性和男性提到wash这词的情况不同,可以反映男性和女性的社会角色的差异。McEney博士统计出BNC中,每百万词中女性用了91.2次,男性用36.17次,仅仅通过频率就可以让我们对女性的角色有了一个初步判断,如果结合语境(或者concordance),获得信息会更多。

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有