加载中…
个人资料
冯志伟文化博客
冯志伟文化博客
  • 博客等级:
  • 博客积分:0
  • 博客访问:721,702
  • 关注人气:1,291
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
相关博文
推荐博文
谁看过这篇博文
加载中…
正文 字体大小:

网络时代的自然语言处理

(2021-01-01 15:48:41)
标签:

冯志伟

人工智能

文化

语言学

网络时代的自然语言处理 

余卫华 冯志伟

 

采用计算机技术来研究和处理自然语言是上世纪 40 年代末期和50年代才开始的,50多年来,这项研究取得了长足的进展,成为了当代语言学中一门重要的新兴学科--自然语言处理。在信息网络时代,自然语言处理引起了包括计算机专家和语言学家在内的越来越多的学者的重视,成为了文科和理科紧密结合的一门典型的交叉学科。语音合成、语音识别、信息检索、信息抽取、机器翻译、人机对话等,都是自然语言处理的重要应用领域。

              

                  形式模型   以简驭繁       

 

由于现实的自然语言极为复杂,不可能直接作为计算机的处理对象,为了使现实的自然语言成为可以由计算机直接处理的对象,在上述应用领域中,都需要根据领域的要求,把自然语言处理抽象为一个问题,再把这个问题在语言学上加以形式化,建立语言的形式模型,使之能以一定的数学形式,严密而规整地表示出来,并且把这种严密而规整的数学形式表示为算法,建立自然语言处理的计算模型,使之能够在计算机上实现。在自然语言处理中,算法取决于形式模型,形式模型是自然语言计算机处理的本质,而算法只不过是实现形式模型的手段而已。这种建立语言形式模型的研究可以起到以简驭繁的效果,它应当属于自然语言处理的基础理论研究。

由于自然语言的复杂性,在用形式模型建立算法来求解自然语言处理的问题时,往往难以满足所求解问题的存在性、唯一性和稳定性这三个条件的要求,有时是不能满足其中的一条,有时甚至三条都不能满足。因此,对于自然语言处理问题的求解,应当加入适当的约束条件,从而顺利地求解这些问题。

在当前的自然语言处理研究中,可以通过语言学、计算机科学、心理学、认知科学、人工智能等多学科的通力合作,把人类知识的威力与计算机的计算能力结合起来,给自然语言处理的形式模型提供大量的、丰富的约束条件,从而解决自然语言处理中的各种困难问题。自然语言处理这个学科的边缘性、交叉性的特点,为解决这样的问题提供了有力的手段。50多年来,学者们在自然语言计算机形式分析的理论和方法方面进行了深入的研究,建立了自然语言处理的各种形式模型,包括基于短语结构语法的形式模型、基于合一运算的形式模型、基于依存和配价的形式模型、基于格语法的形式模型、基于词汇主义的形式模型、语义自动处理的形式模型、语用自动处理的形式模型、语音自动处理的形式模型等。

形式模型是描述自然语言内在规律的数学模型,构造语言的形式模型是自然语言处理的核心。形式模型可以分为传统的规则型形式模型和基于统计的形式模型两种。

规则型形式模型是人工编制的语言规则,这些语言规则来自语言学家掌握的语言学知识,是一种知识驱动的形式模型,具有一定的主观性和片面性,难以处理大规模的真实文本。

基于统计的形式模型通常是概率模型,计算机借助于统计模型的概率参数,可以估计出在大规模真实的语料库中语言成分出现的可能性,而不是单纯地判断这样的语言成分是否符合语言学规则,这是一种数据驱动的形式模型。目前,自然语言处理中的基于统计的形式模型已经相当成熟,例如,隐马尔可夫模型、概率上下文无关语法、基于决策树的语言模型、最大熵语言模型等。

 

                      数据驱动 深度学习

           

随着互联网的迅速发展,我们进入了大数据时代。数据挖掘成为计算机科学的一个重要研究领域。由于大多数的数据是以文本形式存在的,所以,数据挖掘所要挖掘的数据,主要还是文本数据,而这些文本数据恰恰就是自然语言处理的研究对象。因此,数据挖掘中采用的机器自动学习的方法,对于自然语言处理具有重要的价值。

机器自动学习的方法主要有三种类型:有指导的学习、无指导的学习、半指导的学习。

有指导的学习实际上是对于数据进行分类,首先使用事先定义好的类别或范畴标记对于数据的实例进行标注,作为训练数据,机器根据这些标注好的训练数据进行自动学习,再根据学习得到的知识对于新的数据进行分类。由于用来学习的训练数据是用事先定义好的标记进行过标注的,机器学习的过程是在这些训练数据的指导下进行的,所以叫做有指导的学习。

在无指导的学习中,用来学习的数据没有使用事先定义好的类别或范畴标记进行过标注,要使用机器学习的算法来自动地发现隐藏在数据中的结构或规律。这种无指导学习的一个关键技术是聚类,聚类技术根据数据实例的相同点或相异点,自动地把它们聚类为不同的组合。例如,可以把互联网的页面聚类为不同的组合,每一个组合代表一个特定的主题,也可以把文件聚类为不同的层次,每一个层次代表一个特定的主题层次。

有指导的学习要求事先人工标注大量的数据实例,需要付出巨大的人工的劳动量,费力而又费时,为了减少人工标注的劳动量,可以同时从标注过的数据实例和没有标注过的数据实例中进行学习,标注过的数据实例的集合可以比较小,而没有标注过的数据实例的集合可以很大,这样的模型叫做半指导的学习。

机器自动学习的这些方法已经成熟,而且广泛地应用于自然语言处理的研究中,这就从根本上改变了传统的获取语言知识的手段,对于自然语言处理的发展具有革命性的意义。

目前,基于多层神经网络的、以大数据作为输入的深度学习方法引入到自然语言处理中。这是一种新型的机器自动学习。深度学习的训练方式是无监督的特征学习,使用多层神经网络的方法。这种多层神经网络是非线性的,可以重复利用中间层的计算单元,减少参数,计算机从海量的大数据中可以自动地产生模型的特征和算法。

最近,深度学习向神经网络中融入了记忆机制,把知识驱动与数据驱动结合起来,架起了符号主义与连接主义之间的桥梁。这应当是今后自然语言计算机形式分析发展的方向。

(余卫华系浙江越秀外国语学院教授,冯志伟系杭州师范大学钱塘学者讲座教授、教育部语言文字应用研究所研究员)

 

 

0

阅读 评论 收藏 转载 喜欢 打印举报/Report
  • 评论加载中,请稍候...
发评论

    发评论

    以上网友发言只代表其个人观点,不代表新浪网的观点或立场。

      

    新浪BLOG意见反馈留言板 电话:4000520066 提示音后按1键(按当地市话标准计费) 欢迎批评指正

    新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

    新浪公司 版权所有