加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

语料库对语言学发展的重大贡献——语料库语言学

(2011-11-11 17:10:15)
标签:

语料库

语言学

贡献

语料库语言学

杂谈

分类: 学习

(注:同上篇,这也是近十年前上学时的作业)

 

一、什么是语料库

(一)语料库的定义

语料库(corpus)通俗说就是存放语言材料的仓库。作为计算机信息处理的一个术语,严格意义上的语料库指以电子形式保存的语言材料,“它是大规模真实文本的有序集合”(张普)。

(二)语料库的发展

1、国外语料库建设

国外早在20世纪50年代就已经开始了语料库的研究,陆续建成了一批颇有影响的语料库,如,1959 年伦敦大学夸克组织的“英语用法调查”(The Survey of English Usage,简称SEU),是语料库历史上第一个大型的计算机语料库。20世纪60年代,FrancisKucera在美国布朗大学建立了研究当代美国英语的“布朗语料库”。20世纪70年代,由英国兰开斯特(Lancaster)大学的里奇倡议,由挪威奥斯陆(Oslo)大学的S.Johansson主持完成,最终装备在卑尔根(Bergen)大学的“LOB语料库”,它是布朗语料库的姊妹库,其建库目的是用以研究当代英国英语。为了能同美国英语进行比较研究,其规模与分布方案和布朗语料库类似。上述三个语料库的建立确定了语料库语言学在语言研究中无可争议的地位。1981年完成的“伦敦—隆德口语语料库”(LondonLund Corpus of English ,简称LLC)是很有价值的英语口语研究资源。20世纪80年代,由英国柯林斯出版社和伯明翰大学联合建设的COBUILD(Collins Berminhan University International Language Database)语料库,其研究目的是在语料库支持下开展词典学研究。20世纪90年代建成的朗文语料库(Longman Corpus 是以构造多用途语料库为目的建成的,是一个全新的英语语料库,可用以编纂词典,也可为学术研究服务。1991—1995年间建成的英语国家语料库(The National British Corpus,简称BNC),收入了可为教育、学术和商业普遍使用的语言资源。20世纪90年代建成的国际英语语料库(The International Corpus of English ,简称ICE)包含20个平行的子语料库,这些语料库既包括以英语作为第一语言或主要语言的国家,也包括以英语作为官方语言之一或大多数人口讲英语的国家。既可以利用该语料库的子语料库对各国进行语言研究,也可以利用子语料库语料之间的对比进行英语的比较研究。

2、我国的语料库建设

我国的语料库建设始于二十世纪八十年代初。当时的语料库实际上是语言资料库,建设目的在于为字、词典的编纂提供例句或给语言学家提供材料。与此同时,信息处理专家出于信息处理的需要,也开始语料库的建设,目的在于进行计量研究。从九十年代开始,国际自然语言信息处理领域发生了重大变化,转向对大规模真实文本的研究和处理,因此以大规模真实文本为基础的语料库及语言研究和知识自动获取受到高度重视,语料库研究越来越走向深入和实用(张普)。九十年代汉语语料库建设和研究得到了蓬勃发展,出现了一批重大成果,包括:北京语言文化大学的“现代汉语词频统计语料库”(1985年)、“当代北京口语语料库”(1992年)、“现代汉语语法研究语料库”(1995年)、“汉语中介语语料库”(1995年)、“现代汉语句型语料库”(1995年),北京语言文化大学与香港理工大学联合建设的“现代汉语语料库”(1998年)、北京语言文化大学与清华大学合作完成的“现代汉语语料库”(1998年)。

二、语料库带给语言学的根本性变化——语料库语言学

(一)关于语料库语言学

语料库语言学有两个含义:一是指以现实中人们运用语言的实例为基础进行的语言研究。

一是指以语料为语言描写的起点,或以语料为验证有关语言假说的方法(黄昌宁、李涓子《语料库语言学》商务印书馆2002)。概括这两者,我们可以说语料库语言学是一种以语料库为基础的语言研究方法。其宗旨是通过大规模真实语料的调查来发现和总结自然语言的各种语言事实和语言规律。

(二)   语料库语言学发展的历史

语料库语言学可以以乔姆斯基转换生成语法理论的提出为分界点分为以下几个时期。

1、语料库语言学发展的早期

指的是20世纪50年代中期以前。在这个时期,哲学上占主流的是实证主义和行为主

义。在语言学上重视材料的经验主义占据着主导地位。

这一时期语料库语言学的运用主要体现在:1)语言习得。20世纪30年代,基于对儿童自然话语的大量观察材料,语言学家和心理语言学家建成了儿童在不同年龄段的语言发展模式。2)方言学。3)语言教学。20世纪前50年中,语料库与外语教学联系密切,外语教学使用的词汇表往往是从语料库统计得出的。语料库对于外语教学过程的控制具有积极意义。4)句法和语义。语言学家将语料库用于语言描写,如Fries1952)建立的英语描写语法。5)音系研究。利用自然语料开展音系研究在西方首推结构主义语言学家,如F.BoasE.Sapir等人,他们强调语料获取的自然性和语料分析的客观性。

2、乔姆斯基转换生成语法时期

1957年乔姆斯基《句法理论》等论著的发表根本上改变了语言研究的状况。在哲学上笛卡儿的理性主义占据了主导地位,语言学的研究方法也从重视材料的经验主义转向理性主义,语料库研究方法遭到理性主义者的批判。

乔姆斯基区分了语言能力(language  competence)和语言使用(language performance)两个概念。认为只有语言能力才能对人的语言知识做出解释和描述,语言运用只是语言能力的外在表现,它往往会因一些非语言因素的影响而发生变化,因此认为语言运用不能准确地反映语言能力。乔姆斯基认为,语料只是外在话语的汇集,它充其量只能对语言能力做出部分解释。因而,语言学家不应把语料看作得力工具。

乔姆斯基发现语言具有递归性,它表明自然语言的句子数量是无限量的,语料库再大也只是包含了自然语句的一部分,因此对于语言来说它永远是不充分的。

转换生成语法从根本上改变了20世纪50年代结构主义语言学的方向,之后的近20年里语料库语言学研究陷入了低谷。令人欣慰的是,在此形势下尚有一些语言学家凭着非凡的学术勇气,顶着压力,不懈地进行着语料库语言学研究并取得了较大的成就,如1959年夸克建立的《英语用法语料库》(Survey of English Usage, Francis Kucera开始着手建立后来在语言学届非常著名的布朗语料库,1975年,Jan Svartvik在前两项研究的基础上开始研制《伦敦—隆德语料库》(LondonLund Corpus)。作为现代意义上的语料库,它们的建立为后来20世纪80年代语料库语言的复兴奠定了基础。

3、语料库语言学发展的兴盛繁荣

随着计算机技术的不断提高,大规模语料库的建设成为现实。据Edwards 1993年的不完全统计80年代以来世界范围建成投入使用的各类语料库达50多个,其中较为著名的可用于研究的语料库有:1)英语库(The Bank of English)。它是目前最大的英语语料库,由各种类型的书面语材料和口语材料组成。收词两亿五千多万条。2)英语国家语料库(British National Corpus,简称BNC)。3)英语用法调查(The Survey of  English Usage,简称SEU)。4 ) 国际英语语料库(The International Corpus of English简称ICE)。5)布朗语料库(The Brown Corpus)。6)伦敦—伦特语料库(The London--- Lund Corpus)。主要收集英语口语。7)兰卡斯特—奥斯陆卑尔根语料库(The Lancaster---Oslo bergen Corpus ,简称LOB)。可以用它比较不同英语文体。 8)法语语料库(Tresor de la langue Francaise,简称TLF)。语料包括从17世纪到20世纪书面法语各种文体的两千个语篇。10)玛喀里语料库(The Macquarie Corpus)。收入了1986年起的澳大利亚书面语。

(三)   语料库的发展与语言研究

1、语料库的使用促进了语言研究的发展

传统的语言研究大多是在个人的经验积累到一定程度的基础上,产生对于语言规律的感悟。

需要长时间的知识积累和材料搜集,费时耗力。但因为个人时间精力和思维方式的限制,仍然常常不免有挂一漏万的缺憾。语料库的发展为人们进行语言研究提供了得力的手段和工具,它的存储容量和处理语言材料的能力是任何个人头脑所无法比拟的。利用语料库所提供的语料,语言研究者可以进行分析,从而概括语言运用规律;可以运用语料库验证已有各语言规则的合理性和客观性,匡谬正误。从而使得语言研究得出的结论越来越接近语言事实本身。

2、语料库的发展有待于语言研究的进一步深入

要想使语料库更好地发挥其在语言研究中的作用,有待于进一步对语料库进行开发,赋予它更多的属性,只有如此才能利用它作相关研究。赋予语料库相关属性要基于语言研究的相关成果,依赖于人们对于语言的认识程度。语言交际是一个极为复杂的活动过程,其中交织着生理、心理、物理、社会的种种因素,语言交际活动中的表达与理解因此也就具有了复杂性。在人际交往中交际双方可以利用所处语境帮助语言的表达与理解,而计算机理解时缺乏语境,因此计算机语言处理就给我们提出了以往人际交流中所未曾遇到的问题,它需要把语言知识和与语言相关的知识挖掘出来,用计算机所能理解的形式教给计算机。在这种形势的压力下,人们开始反思以往的语言研究,其中能为计算机自然语言理解所用的成果寥寥。也正是以此为动力,促进了语言研究的深入开展,特别是面向计算机自然语言理解的语言研究已经引起了越来越多人的重视,相关成果也从无到有、从少到多,研究越来越趋向深入。

三、语料库相关的语言学研究领域

(一)语言本体研究

1、  词汇

1)确定词义,对词加以正确释义。词是音义结合体,处于静态的词,其词义具有概括性特点。交际活动中人们将词连缀成句,词便处在动态环境中,这时所体现出来的是词的种种具体的用法。它因语境的制约和补充而具体化、单一化、甚至产生言外义。所以维特根斯坦说有一千种用法就有一千种词义。所以我们能够直观感觉到的是词语的言语义,而作为语言单位的词的语言义是在词的言语义基础上加以概括得出的。通过语料库所提供的大量真实语料,结合语篇可以让我们全面观察词义,在此基础上,通过概括抽象从而确定词义。

2)通过语料库进行词频统计,编制常用词表与非常用词表。也可以通过对专业领域语料库的统计得出专业词语词频,编制专业词表。

3)通过语料库,可以观察每个词具有什么非语言因素联结,例如语域、历史阶段、地域及种种社会因素对词语的影响。

4)观察词语的搭配和在不同语域中的分布情况。

5)通过语料库所提供的语言材料,可以进行同义词比较。

6)基于上述理论研究成果可以编纂各种相关词典,如词频词典、词语用法词典、词语搭配词典、同义词辨析词典、多义词词典等等。

值得特别强调的是语料库对于词典编纂的贡献,利用语料库进行词典编纂使得词典编纂者从传统的繁难、高强度的工作中解脱出来。更重要的是,它使得词典知识受编纂者个人知识范围限制的情况得到了根本性改变。依传统的学习方式,任何个人或集体所掌握的知识都受到个人主观和所在客观条件的种种限制。而语料库所储存的海量信息、知识以及计算机处理信息的能力都远远超出了任何个人或集体,所以基于语料库的词典编纂能够做到更客观、更全面地反映语言信息,更好地实现编纂目的,满足人们的各种相关需求。如,被誉为全世界第一部计算机编纂的词典《柯林斯COBUILD英语大词典》,是在2000万词次的COBUILD(Collins Birmingham University International Language Database)语料库的支持下于1987年完成的。该词典成为词典编纂业的一个里程碑,它在选词、用法和释义等环节上都以翔实、定量的语言事实为依据,开创了词典编纂一代新风,具有深远的影响。

2、  语法

1)通过语料库所提供的大量语料,观察各类词的分布情况 ,在此基础上所得出的词类的用法对于语言使用更具有解释力。

2)通过语料库可以观察词语的语法搭配。

3)通过分析不同语域中句法结构的分布和联结模式来解释它们的功能。

4)可以通过语料库所提供的语料验证语言学家已经概括出的语法规则的正确性、客观性。

(二)语料库和应用语言学

1、  语料库与语言教学

利用上述对于语言本体的研究成果可以更为有效地开展语言教学活动。如词汇中词频统计

的结果可以指导教材的编写,正确确定先行学习高频词。再如,通过语料库得出一种语言的各种句型模式,在对句型模式出现频率统计的基础上,可以指导教材中句型学习的合理编排。这样可以避免教材编写与教学实施过程中的盲目性。既有利于语言的实际运用,而且由于学能致用,可以调动学生学习语言的积极性。

2、  语料库与社会语言学

社会语言学作为一个研究领域,其研究结论的得出主要依赖具体的语料数据。通过大规模

真实语料库的运用,可以提高数据的自然性和代表性,减少一般社会语言学研究调查依赖诱导,所得出的结论客观性差的缺憾。

目前利用语料库开展的社会语言学研究主要集中在语言的性别差异研究方面。

3、  语料库与外语教学和第二语言教学

语料库对于外语教学和第二语言教学产生了直接影响。作为大量真实语言材料的来源,语

料库在近年来的教学中得到了越来越广泛的应用。例如可以根据语料库的词汇统计生成词汇表,更有效地开展词汇教学。再如,可以通过对齐语料库进行语言的对比,有针对性地进行教学,有效地利用语言的正迁移作用,有意识地消除负迁移作用,使得教学活动更为主动,从而取得更好的教学效果。

4、  语料库与语言测试

语言测试不仅是检验语言学习效果的一种重要手段,而且由于测试对于语言学习具有导向

作用,它一直是语言学习者所关注的对象,近年来它已发展成为一个专门的学科方向,受到越来越多的研究者的重视。

语言测试中测试什么内容、以什么形式测试都是语言测试研究所关心的问题。基于语料库的语言测试研究,探讨如何利用语料库所提供的大规模真实语言材料,设计待测试知识点和测试时所使用的题型,使由此得出的测试结果的信度、效度更加理想。

5、  语料库与语言规划

“语言规划是政府或社会团体为了解决在语言交际中出现的问题有计划有组织地对语言

文字进行的各种工作和活动的统称。”“语言规划的内容是十分庞杂而广泛的,它除了对语言文字进行一般性的管理之外,还包括语言的选择、语言的标准化与规范化、文字的创新、文字的改革等工作”。(冯志伟《应用语言学综论》)语言规划基本上是限定主义的,但它是在对语言现象描写的基础之上来制定语言限定规范的。语言规划的目的是为了解决在语言交际中出现的问题,以促进语言的社会功能的发挥。因此语言规划不是脱离语言实际的主观决定,其规划内容之中的语言的选择、语言的标准化与规范化更是要顺应语言的发展规律做出规定。

语料库为我们提供了对有待规范的语言现象加以广泛观察、仔细比较、深入分析的可能。我们以往大多是以“典范的现代白话文著作”的用法为标准去衡量待考察语言现象。语言不是静止的,而是处在不断的发展之中的,只不过它的发展是渐变的,不易为人们所察觉。以不变的标准去衡量语言的发展本身存在缺点,这种做法也是不太科学的。利用大规模真实语料库作为辅助方法可以弥补这种不足。

语言的变异或创新一般都要经历一个发展过程。最初可能只是某个个人的临时性用法,但如果这种变异或创新得到大家的认可,而且进一步使用范围扩大,使用频率越来越高,那么,该语言现象就有可能由动态的言语现象成为语言现象了。这种发展变化过程需要对语言进行连续时间的监测才能观察得到。大规模真实语料库是未经编辑的非受限的文本的集合,其中含有非规范的用法,也正是在这些非规范的用法中,有些体现着语言的变异或创新。而且大规模真实语料库所收集的语料具有一定的时间跨度,从中可以观察某个语言成分从无到有、从使用较少到使用人群渐多的演变过程。更进一步,在利用语料库对语言的创新和变异进行观察的过程中,我们可以探索语言的发展规律,利用得到的规律对语言的发展加以预测,使得语言规划变被动为主动,变一味的限定为一种科学的引导,使之真正成为一门科学。

 

以上简略谈了语料库的发展历程、语料库在相关的语言学领域的应用,实际上其应用范围远远不止上述几个方面,它所带给我们的也绝不只是一种研究方法的革命。相信随着语料库研究的深入,语料库属性的日益丰富和健全,其应用领域也必将会越来越广泛,其作用也必将会得到越来越充分的发挥。

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有