加载中…
个人资料
冯志伟文化博客
冯志伟文化博客
  • 博客等级:
  • 博客积分:0
  • 博客访问:719,885
  • 关注人气:1,291
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
相关博文
推荐博文
谁看过这篇博文
加载中…
正文 字体大小:

《Python3:语料库技术与应用》序言

(2021-01-16 16:35:14)
标签:

冯志伟

人工智能

术语学

语言学

自然语言处理

Python3:语料库技术与应用

序言

                     冯志伟

《Python3:语料库技术与应用》序言

 

我怀着极大的兴趣通读了陆晓蕾博士的新著《语料库技术与应用:基于Python3的语料自动获取与分析》。语料库是为一个或多个应用目标而专门收集的、有一定结构的、有代表性的、可被计算机程序检索的、具有一定规模的语料的集合。语料库应该按照一定的语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片段来建立。从其本质上讲,语料库实际上是通过对自然语言运用的随机抽样,以一定大小的语言样本来代表某一研究中所确定的语言运用总体。

语料库技术和应用是重要的语言学研究手段,但是,在已经出版的语料库著作中多涉及语料库的应用方面,关于语料库技术的著作还不太多见。

从语料库研究的实际情况看来,语料库技术是不可忽视的。我曾经说过,为了适应信息时代语言学研究的新发展,语言研究者有必要进行更新知识的再学习,努力完善自己的知识结构,这应当是信息时代的语言研究者责无旁贷的任务。人文科学背景的语言研究者可以先通过学习利用一些编程手段和技术,从语料获取入手,逐渐获得利用计算机计算语言的能力,使自己成为文理兼通、博学多才的语言学一代新人。

如果搞语言研究不使用语料库或概率,很可能就只能使用自己根据“内省”(introspection)得到的数据,这是“第一人称数据”(first person data),在使用第一人称数据时,语言研究者既是语言数据的分析者,又是语言数据的提供者。第一人称数据主观性很强,往往见仁见智。

使用根据“问卷调查”之类的“诱导”(elicitation)得到的数据,这是第二人称数据second person data)。在使用第二人称数据时,语言研究者不充当数据的提供者,数据需要通过“作为第二人称的旁人”的诱导才能得到。

如果使用语料库的数据作为语言研究的数据来源,那么,语言研究者就不再充当数据的提供者或诱导者,而是充当数据的观察者或检验者了,这种通过“观察”(observation)和“检验”(verification)得到的数据是第三人称数据third person data)。这是2000Widdowson在他的论文The limitation of Linguistics applied中提出的看法,值得我们借鉴[1]

当然,如果使用第三人称的观察数据,语言学研究者同时也可以充当数据的“内省者”或“诱导者”,所以,第一人称和第二人称与第三人称是难以分开的,第三人称方法显然是比较科学的获取数据的手段。我们认为,语言学的一切知识,不论是过去通过“内省”或“诱导”得到的知识,最终都有必要放到语料库中来“观察”和“检验”,决定其是正确的,还是片面的,还是错误的,甚至是荒谬的,从而决定其存在的必要性,决定其是继续存在,还是放弃其存在,我们这一代语言研究者别无选择。

在大数据(big data)时代,尤其是近年来的互联网(web)技术的日新月异,丰富的语料资源变得唾手可及。然而,使用传统的基于“内省”或“诱导”的方法来获取语言知识,犹如以管窥豹,以蠡测海这种获取语言知识的方法不仅效率极低,而且带有很大的主观性和片面性。语料库语言学提倡建立语料库,在计算机的辅助下,使用统计的方法或机器学习的方法,自动或半自动地从浩如烟海的语料库中获取准确的语言知识。随着互联网日新月异的发展,互联网上有着无比丰富的文本语言数据,其中有经过标注的结构化的语言数据,也有未经过标注的非结构化的语言数据,我们可以从互联网上,使用语料库技术,从这些大量的语言数据中自动或半自动地获取客观而全面的语言知识。这是语言学获取语言知识方式的巨大变化,在语言学的发展历史上具有革命性的意义。

我们应该敏锐地注意到这样的变化,与时俱进,努力学习语料库技术,逐渐改变传统语言学中获取语言知识的手段。本书除了讲述语料库的应用之外,还讲述了语料库的技术,这是难能可贵的,这也是本书最突出的特色。

本书使用Python来进行语料库的获取与分析,Python作为一门高级语言,功能十分强大,易学易用,在语料获取和分析方面具备得天独厚的优势。作者选择Python作为工具,乃是明智之举。

本书共有六个部分。

第一部分语料自动获取讲述了网页的基本组成,HTTP原理,网络请求库和网页解析库的使用。

第二部分语料自动存储与读取讲述了怎样把从互联网上爬取的语料保存到本地的方法以及如何从大量文件中读取数据的方法。

第三部分语料清洗与预处理讲述了如何进行文本清洗和降噪以及一些预处理方法,如分词、大小写转换、词形还原等。

第四部分语料的检索与分析介绍了关键词检索、词频统计、句法分析等技术,还介绍了一些基于机器学习的语料分析方法,如词向量、情感分析和命名实体识别等。

第五部分开发环境配置介绍了全书相关开发环境和工具的安装和配置。

第六部分综合应用以著名的IMDB网站为例,介绍了从语料获取、语料存储到语料分析的全过程,还原了语料库建设的全过程。

由于本书强调讲述语料库技术,实践性很突出,建议读者上机上线进行实际操作,切实地掌握这些技术,与时俱进,自觉地进行知识更新的再学习。读者在学习这些技术的时候,希望注意语料库的版权问题,遵守网络ROBOTS协议的有关规定。

陆晓蕾博士是学文学出身的,几年来,她自学编程和语料库技术,学会了Python语言,还在课程中建设网站以提高效率。她的这本《语料库技术与应用》,是她近年来在语料库研究实践深入思考的产物。语料获取与应用是个实践性特别强的工作,本书以大量的事例代码,带读者进入代码的世界。本书在平时也可以作为读者案头的一本Python工具书。在介绍语料的同时,陆博士还详细论述了网络爬虫相关的法律协议和常识。

作为数据驱动的工作,无论是在统计机器翻译还是翻译质量评估等自然语言处理任务中,都缺少不了高质量语料和语言研究者的参与。语料库技术把语言研究者从艰苦繁重的手工劳动中解放出来,使语言研究者可以集中精力来研究和思考其他重要问题,这对于促进语言学研究的现代化具有不可估量的作用。在参与这些系统的研制过程中,语言研究者应当努力地学习计算机算法的理论和技术,不断地进行更新知识的再学习。

希望读者在阅读了本书之后,积极地投身到语言库技术的研究工作中去,为语言学的新发展贡献聪明才智。

 

冯志伟

202011月于北京后拐棒胡同


[1] Widdowson, The limitation of Linguistics applied, Applied Linguistics, 2000:1, p3-25.

0

阅读 评论 收藏 转载 喜欢 打印举报/Report
  • 评论加载中,请稍候...
发评论

    发评论

    以上网友发言只代表其个人观点,不代表新浪网的观点或立场。

      

    新浪BLOG意见反馈留言板 电话:4000520066 提示音后按1键(按当地市话标准计费) 欢迎批评指正

    新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

    新浪公司 版权所有