语言学与数学的结合_冯志伟文化博客

http://blog.sina.com.cn/u/1926267847

首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

语言学与数学的结合

(2013-01-18 09:37:21)

标签：

语言学

数学方法

冯志伟

语言学与数学的结合

——读《语言学中的数学方法》

高松

【冯志伟按】这是我的博士生高松的一篇读书心得，请大家共享。高松现在黑龙江大学任教。

《语言学中的数学方法》（以下简称“方法”），由语言学家Barbara H. Partee、Alice ter Meulen、Robert E.Wall合著。Springer-Verlag公司授权世界图书出版公司2009年在中国出版，共664页，由冯志伟教授导读。

语言学是社会科学里最接近自然科学的学科，也是最容易与数学联系的学科。如今随着语言学的发展，特别是计算语言学的发展，数学已经成为语言研究的重要工具和手段。“方法”这本书从语言学的角度来讲有关数学问题，特别适合从事语言研究的人阅读。对从事计算语言学研究的人来说，此书实为难能可贵。其中很多的理论，很多的思路，都有助于我们对一些问题的思考更深入，认识更清楚。本书使我们认识到语言学与数学的结合有着必要性和可能性。语言的形式化需要数学，需要使用数学的方法来分析和描述语言；语言又是一个抽象的符号系统，我们可以用数学思想和数学方法来研究这个特殊的符号系统。

书中部分内容属于数理逻辑的范畴。数理逻辑是研究推理逻辑规律的一个数学分支，它采用数学符号化的方法，给出推理规则来建立推理体系，进而讨论推理体系的一致性、可靠性和完备性。数理逻辑的研究内容是两演算加四论。两演算为命题演算、谓词演算，四论为集合论、模型论、递归论和证明论。这部分内容我们将重点介绍。全书各篇页数的分配情况，见表1。

表1 各篇的页数

	A篇	B篇	C篇	D篇	E篇
页数	83	160	68	116	159

从表1中，我们可以看到B篇和E篇是页数最多的两篇。其次是D篇。A篇和C篇页数最少。由此可见，全书的重点章节在B和E篇。下面，我逐一介绍一下本书的内容，并重点介绍B和E篇，供大家参考。

本书共有5篇。A篇是集合论。集合论是数理逻辑的分支，也是数学各分支的共同基础。在计算机科学、人工智能、逻辑学、经济学、语言学和心理学等方面都起着重要的作用。作者在这里分了四章来介绍集合论的内容。包括：集合论的基本概念、关系和函数、关系的性质、无限性。A篇主要是介绍集合论相关的背景知识。此章的内容是为后面的介绍做预备知识。其中集合的基本运算、几个重要的定律以及关系的几种性质是需要重点掌握的。该篇具体小节的详细内容，参见冯志伟（2009）的《语言学中的数学方法》导读，这里不再赘述。

B篇是逻辑和形式系统。这部分是该书的重点内容。作者分四个章节来展开讨论：逻辑和形式系统的基本概念、命题逻辑、谓词逻辑、形式系统和公理化与模型理论。逻辑和形式系统的基本概念中，先介绍了形式系统和模型。接着介绍了自然语言与形式语言。说明了自然语言是我们用来彼此交流的语言，是我们在童年就获得了的第一语言；形式语言是人们为了一个清晰的、特殊的目的而设计出来的语言。形式语言包括A篇中集合论语言、逻辑语言（命题逻辑、谓词逻辑）、算术语言、程序语言（如Pascal、Fortran、Prolog、Lisp语言等）。又在这部分介绍了逻辑，认为逻辑是数学基础的一个分支，并已经发展了很多有用的形式语言。本书的兴趣点之一就是以英语为例，为逻辑和形式语言对自然语言的应用而交待相关背景。句法和语义这部分，介绍了它们的区别。认为现代生成语法根植于数学理论中的形式语言和自动机；语义学在形式语义学的传统中是根植于逻辑和模型论。命题逻辑和谓词逻辑是逻辑的两个体系。它们都是形式语言，拥有各自的词汇、句法规则和语义（或者是解释体系）。它们的句法和语义成分都比自然语言要简单得多，这是它们的优点。因为它们可以避免歧义和自然语言的一些复杂特性。逻辑语言中的句子都是陈述句，没有疑问句、祈使句、感叹句等。并且有一些符号来代替语句中的联结词，如：and、or、 not、 if… then 、if and only if等。

命题逻辑的句法非常简单。我们用符号p、q、r、s等（或需要时加上素数和下标）来表示一个原子命题的无限的基本词汇。它的定义是：任何一个原子命题自身都是一个句子或是合式公式wff；任何一合式公式前面带有符号‘~’（否定）也是一个合式公式；任何两个合式公式（也许相同）都能够通过加符号‘&’（合取）、‘∨’（析取）、‘→’（条件）、‘↔’（双条件）等把它们和括在括号内的结果联系起来而形成另一个合式公式。

在语义学这部分列出了真值和真值表。包括否定、合取、析取、条件和双条件。否定：如： P：今天北京下雨了。（命题P为真）

~P：今天北京没有下雨。（命题~P为假）

合取：如：P: 班级里有1名男同学。

Q: 班级里有3名女同学。

P&Q：班级里有1名男同学和3名女同学。

﹡这里合取符号‘&’类似汉语中的‘和’、‘跟’、‘同’、‘与’或英语的‘and’，但并不完全相同。

析取：如：P: 他想去书店买书。

Q: 他想去图书馆看书。

P∨Q：他想去书店买书或者想去图书馆看书。

又如：P: 天空是蓝色的。

Q: 大地是蓝色的。

P∨Q：天空是蓝色的或者大地是蓝色的。

﹡当命题全为真时，析取的结果为真；当命题仅有一个为真时，析取的结果仍为真。析取‘∨’不完全等同于汉语的‘或’或英语中的’or’。

条件：如：P: 玛丽在Party上。

Q: 约翰在Party上。

P→Q: 如果玛丽在Party 上，那么约翰也在Party上。

﹡P如果为假，那么无论Q取值真假，P→Q的结果都为真。条件在逻辑表达中是很有用的，用于表达因果关系。相当于汉语中的“如果…，那么…”或英语中的“if …, then…”

双条件：如：P: △ABC是直角三角形。

Q: △ABC中有一个角是90°。

P↔Q: △ABC是直角三角形当且仅当有一个角是90°。

﹡双条件有人也称其为“等价”关系。相当于汉语中的“当且仅当”或英语中的“if and only if”。

由这5个联结词所定义的运算是数理逻辑中最基本、最常用的逻辑运算。联结词是由一个命题定义新命题的基本方法。

重言命题、矛盾命题和相依命题是根据真值表将命题进行分类的结果。当真值表的结果栏中是“1”的命题为重言命题，结果都为真（永真式）；当真值表的结果栏中是“0”的命题为矛盾命题，结果都为假（永假式）；当真值表的结果栏中“0”和“1”都出现的命题为相依命题，结果可能为真，可能为假（亦真亦假式）。

逻辑等价、逻辑结论与逻辑定律部分。如果一个双条件命题是一个重言式，两个一致性的命题连接一起就称其为逻辑等价。例如真值表中的~（P∨Q）和（~P&~Q）。对于分析推理的有效模式，逻辑等价命题是非常重要的，因为它可以在任一命题间自由地相互替代而不影响它的真值结果。如果一个条件命题是同义反复的，我们就称结论是一个逻辑结论。用P⇒ Q来说明Q是P的一个逻辑结论。命题逻辑定律包括：幂等律、结合律、交换律、分配律、同一律、求补律、德摩根律、条件律、双条件律9种。逻辑命题的自然演绎，这部分主要是利用真值表和逻辑定律，进行推理的有效模式的分析。包括条件证明和间接证明。条件证明比较容易证明结论中包含一个作为主要连接者的条件语。间接证明非常频繁地使用在数学中，它们常常比一个直接证明更容易来构建。例如，证明空集是任何一个集合的子集。章节的最后部分讨论了荷兰逻辑学家贝思提出的描述语义表的贝思方法的相关内容。

命题逻辑中，是把简单命题作为基本单元或原子来看，不对简单命题的内部结构进行分析。对简单命题进一步剖析，引入谓词、变量并考虑到表示变量的数量上一般与个别的全称量词和存在量词，进而研究它们的形式结构和逻辑关系，这便是谓词逻辑。谓词逻辑是命题逻辑的发展，它的初级命题包括一个谓词和一些项。项有量词、个体词等。一个命题中，如果主词只有一个，表示该主词性质或属性的词为谓词；如果主词多于一个，那么表示该主词性质或属性的词为多元谓词。量词分为两大类：全称量词和存在量词。任何一个自然语言命题都可以用符号使其化为谓词逻辑的合式公式。对个体词作数量讨论与分析的谓词逻辑为“一阶谓词逻辑”。

命题逻辑和谓词逻辑可以对自然语句进行形式化的描述。命题逻辑表达问题的能力，仅限于联结词的使用。而谓词逻辑由于引入了谓词、量词和变元等，具有了很强的表达能力，已成为描述计算机所处理知识的有力工具。尤其是在人工智能中，已将谓词逻辑看作是一种基本的知识表示方法和推理方法。在自然语言处理中，语言的意义需要形式化的表示出来。其中一个重要的表示方法就是一阶谓词演算表示法，这种方法就是基于逻辑的形式化表达语义的方法。它的原子公式为：AtomicFormula → Predicate (Term…)，Predicate是谓词，Term是项。项包括常量、函数、变量。如“妈妈爱孩子”这个命题，就包含一个二元谓词“爱”，其形式可以写成：爱（妈妈孩子）或（爱妈妈孩子）。又如：“她不是男孩”这个命题的形式化表示：（不（是她男孩））。这些都是简单的命题，利用简单命题，我们能定义语言中一组非常有限的子集的意义，即那些由简单动词和专有名词组成的句子。为了说明更复杂的句子，就必须引入另一个项，也就是量词。关于一阶谓词演算的详细内容，可参见冯志伟（2004）的《机器翻译研究》。

形式系统、公理化和模型论这一章节内容很多，也是作者重点讨论的内容。这部分主要是从句法和语义的角度来研究形式系统。先引入了递归的定义，之后介绍了公理系统和推导。挪威数学家Axel Thue给扩展公理系统加上了一定的限制，提出了半图厄系统。它的定义是如果扩展公理系统（A、B、S、P）中的每个生成式格式都是双项的，并且具有形式αxβ→αyβ，那么这个扩展公理系统就叫做半图厄系统。这部分内容与冯志伟（1985）《数理语言学》中对半图厄系统的介绍一致。把乔姆斯基的形式语法同数学中的半图厄系统比较，可发现他的形式语法实质就是一个半图厄系统。章节中介绍了1959年美国华裔数理逻辑学家王浩提出的公理系统。该系统对公理的证明给出了算法，便于用计算机来实现定理的证明。所以有人也称其为公理证明的自动化系统。同时也介绍了集合的公理化、命题逻辑的公理化和谓词逻辑的公理化。集合论的ZF公理包括:外延性公理、正则公理、空集合公理、无序对集合公理、并集合公理、幂等集合公理、无穷公理、替换公理等8个公理。命题逻辑的公理系统：

定义：P→Q 是 ~P∨Q的缩写

P&Q 是 ~（~P∨~Q）的缩写

P↔Q 是（P→Q）&（Q→P）的缩写

4个公理：（P∨P）→P

P→（P∨Q）

(P∨Q) → (Q∨P)

(P→Q) → ((R∨P) → (R∨Q))

推理规则：替换规则和取式。

谓词逻辑公理：（φ→(ψ→φ)）

(φ→ (ψ→x)) → ((φ→ψ) → (ψ→x))

(~φ→~ψ) → (ψ→φ)

("x) φ (x) → φ (a)

谓词逻辑的公理系统是建立在命题逻辑公理系统之上的。只是在公理和推理规则中增加了量词的引入和消去。

章节的最后介绍了哥德尔不完性定理和高阶逻辑等相关问题。B篇主要是从语言学的角度，介绍了离散数学的基本知识。

C篇介绍了抽象代数的基本理论。包括一些基本的概念、运算结构、格、布尔代数和赫廷代数。D篇以英语为例，介绍了形式语言的特性，以及一些理论和概念在语言学中的应用。

E篇语言、语法与自动机，共有7章，是全书的重要部分。这部分内容也是和计算语言学联系最紧密的部分。通过这一篇的阅读，我们更清楚地认识了一些问题。尤其是摸清了一些问题和数学之间的联系。16章基本概念主要介绍了语言、语法和自动机、树形图、语法和树形图、乔姆斯基层级、语言和自动机。17章至20章具体介绍了乔姆斯基层级。这几部分内容属于代数语言学的内容。形式语法是生成语言的句子的装置，是对语法分析过程的形式化。自动机是识别语言的工具。众所周知，自动机是一种理想化的机器，因为它只是抽象分析的工具，不具备实际的物质形态。根据自动机不同的结构和功能，可以分成：图灵机、线性有界自动机、下推自动机和有限自动机四种。它们又对应着不同的语言和语法。见表2。

表2 自动机、语法、语言对应表

自动机	语言	语法
有限自动机	正则语言	3型语法
下推自动机	上下文无关语言	上下文无关语法
线性有界自动机	上下文有关语言	1型语法
图灵机	递归可枚举语言	0型语法

16章树形图的内容，对我们来说已经不陌生了。结点之间的支配关系、前于关系以及标记，这些通过构造一棵短语结构树，可以理解得非常到位。我们通过学习中文信息MMT模型，已经掌握了汉语句子的多叉多标记树形图分析法。

21章中介绍了四种语法：索引语法、树邻接语法、中心词语法和范畴语法。它们的生成能力在上下文无关语法和上下文有关语法之间。

索引语法。根据Hopcroft和Ullman（1979）“在已被提出上下文无关语法中，一类‘索引’出现得最自然，因为它出现在各种各样的上下文中。”索引语法不同于上下文无关语法在于：非终极符号可带一系列从一个最初制定的有限集中选择出来的指标，并且它的产生允许增加或删减在派生过程中的指标。Gazdar 和 Pullum（1985）指出：没有一种现象能使人相信自然语言属于索引语言的范围。索引语言至少在现在提供给我们的是有一种句法现象的上限。这当然是语言被视为字符串集的假设。我们对索引语法的了解不是很多，还需要进一步阅读一些文献来理解和掌握。

树邻接语法。树邻接语法被Joshi和他的同事们设计出来，用来限制上下文无关语法的范围。在薄弱的生成能力方面，树邻接语法的地位处于上下文无关语法和索引语法之间。上下文无关语法Ì树邻接语法Ì索引语法。提出树邻接语法的原因是上下文无关语法过于简单，不足以限制一些不合法语言现象；上下文有关语法的分析又过于复杂，不适合实际应用。树邻接语法中有两种操作：替换和附加。替换是把一个树的根结点与另一个初始树中标为替换的非终结符叶子结点合并，生成一棵新树。附加是把一个附属树嫁接到一个初始树的任意非终结结点上。

中心词语法。该语法是1984年由Polland提出，这种语法也称中心词驱动的短语结构语法。它是在广义的短语结构语法的基础上提出的，基本上继承了广义短语结构语法的原则，但同时又吸收了词汇功能语法、范畴语法的优点，强调了词汇在语言构成中的重要地位。它以词汇为中心并根据自然语言处理的实践对语法规则进行了灵活改进。它通过一系列的限制规则和词的可继承的分类体系来体现词汇在整个句子中的作用。突出特点是特别强调中心语在语法分析中的作用，使整个语法系统由中心词来驱动。

范畴语法。范畴语法关于逻辑语言的语义范畴是基于Ajdukiewicz（1935）的研究。它作为自然语言的一个句法描述的系统，被巴尔希列尔（1953）提出来。蒙塔古在自然语言语义方面的研究是假设了一个范畴句法，这部分地导致了这种范畴语法体系的建立。范畴语法的思想是词汇条目不仅可以归于基本的范畴，如名词、动词，也可以归于一些复杂的范畴中，如S/VP, V/(NP/S)等。按照这种理论，任何词都可以根据它在句子中的功能归入一定的句法类型。用n表示名词的句法类型，用s表示句子，那么其他一切句法类型都可以用n和s以不同的方式结合起来表示。根据句法类型及运算规则可以对语言中任何词的序列进行判定，辨识它是否为该语言中的句子，如果通过有穷的运算步骤，可以把词的序列化为S，那么这个词的序列便是语言中成立的句子。范畴语法对自然语言处理是有价值的。

22章介绍了乔姆斯基的转换语法。对于乔姆斯基的转换语法的标准理论做出较大发展之一的是Peters 和Ritchie (1973)、Ginsburg 和Partee（1969）的研究，他们基于数学方法，对语言的语法进行了改造。一个转换语法的句法包括两部分：一是基本部分，上下文有关语法和上下文无关语法；二是转换部分，由一组转换规则组成。基础成分从初始符号s开始递归地生成无限层级的树。每一个这样的树都输入给转换规则，它绘制了从一棵树到另一棵树的地图。转换规则被假定是基于线性排列，一个的输出结果形成下一个的输入。如果一个给定的规则不能应用到一棵特定的树，那么这棵树将未改变并且规则序列的下一个规则将被考虑使用。在转换语法中，转换规则假定按照转换周期来应用。转换语法是对短语结构语法的改进，这种改进有合理之处，对语言学的研究具有重要的作用。该章后面的附录也是内容丰富，图示清楚，值得一读。

通读全书并按章节做了课后练习后，感觉很通透。读罢掩卷，对语言研究中使用的主要的数学方法有了清晰的了解和粗浅的掌握。本书非常适合语言学研究者，所讲的数学问题都是循序渐进，层层深入。许多问题都值得深入思考，认真琢磨才能完全读懂、吃透。语言虽是英语，但不晦涩，读起来很通顺。总体来讲，获益匪浅。阅读的过程中，不可避免地会遇到一些问题，相信这些问题会在今后的学习和研究实践中慢慢解决，慢慢理解。带着这些问题进行学习和研究，效果也会事半功倍。

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report

前一篇：“自然语言信息处理的逻辑语义学研究”项目举行中期报告会

后一篇：国家社科基金重大项目（基础类）“汉语史语料库建设研究”进展

新浪BLOG意见反馈留言板　欢迎批评指正