语言学与数学的结合
标签:
语言学数学方法冯志伟 |
【冯志伟按】这是我的博士生高松的一篇读书心得,请大家共享。高松现在黑龙江大学任教。
书中部分内容属于数理逻辑的范畴。数理逻辑是研究推理逻辑规律的一个数学分支,它采用数学符号化的方法,给出推理规则来建立推理体系,进而讨论推理体系的一致性、可靠性和完备性。数理逻辑的研究内容是两演算加四论。两演算为命题演算、谓词演算,四论为集合论、模型论、递归论和证明论。这部分内容我们将重点介绍。全书各篇页数的分配情况,见表1。
|
|
A篇 |
B篇 |
C篇 |
D篇 |
E篇 |
|
页 |
83 |
160 |
68 |
116 |
159 |
从表1中,我们可以看到B篇和E篇是页数最多的两篇。其次是D篇。A篇和C篇页数最少。由此可见,全书的重点章节在B和E篇。下面,我逐一介绍一下本书的内容,并重点介绍B和E篇,供大家参考。
本书共有5篇。A篇是集合论。集合论是数理逻辑的分支,也是数学各分支的共同基础。在计算机科学、人工智能、逻辑学、经济学、语言学和心理学等方面都起着重要的作用。作者在这里分了四章来介绍集合论的内容。包括:集合论的基本概念、关系和函数、关系的性质、无限性。A篇主要是介绍集合论相关的背景知识。此章的内容是为后面的介绍做预备知识。其中集合的基本运算、几个重要的定律以及关系的几种性质是需要重点掌握的。该篇具体小节的详细内容,参见冯志伟(2009)的《语言学中的数学方法》导读,这里不再赘述。
命题逻辑的句法非常简单。我们用符号p、q、r、s等(或需要时加上素数和下标)来表示一个原子命题的无限的基本词汇。它的定义是:任何一个原子命题自身都是一个句子或是合式公式wff;任何一合式公式前面带有符号‘~’(否定)也是一个合式公式;任何两个合式公式(也许相同)都能够通过加符号‘&’(合取)、‘∨’(析取)、‘→’(条件)、‘↔’(双条件)等把它们和括在括号内的结果联系起来而形成另一个合式公式。
在语义学这部分列出了真值和真值表。包括否定、合取、析取、条件和双条件。否定:如: P:今天北京下雨了。 (命题P为真)
~P:今天北京没有下雨。(命题~P为假)
合取:如:P: 班级里有1名男同学。
﹡这里合取符号‘&’类似汉语中的‘和’、‘跟’、‘同’、‘与’或英语的‘and’,但并不完全相同。
析取:如:P: 他想去书店买书。
﹡当命题全为真时,析取的结果为真;当命题仅有一个为真时,析取的结果仍为真。析取‘∨’不完全等同于汉语的‘或’或英语中的’or’。
条件:如:P: 玛丽在Party上。
Q: 约翰在Party上。
P→Q: 如果玛丽在Party 上,那么约翰也在Party上。
﹡P如果为假,那么无论Q取值真假,P→Q的结果都为真。条件在逻辑表达中是很有用的,用于表达因果关系。相当于汉语中的“如果…,那么…”或英语中的“if …, then…”
双条件:如:P: △ABC是直角三角形。
﹡双条件有人也称其为“等价”关系。相当于汉语中的“当且仅当”或英语中的“if and only if”。
重言命题、矛盾命题和相依命题是根据真值表将命题进行分类的结果。当真值表的结果栏中是“1”的命题为重言命题,结果都为真(永真式);当真值表的结果栏中是“0”的命题为矛盾命题,结果都为假(永假式);当真值表的结果栏中“0”和“1”都出现的命题为相依命题,结果可能为真,可能为假(亦真亦假式)。
逻辑等价、逻辑结论与逻辑定律部分。如果一个双条件命题是一个重言式,两个一致性的命题连接一起就称其为逻辑等价。例如真值表中的~(P∨Q)和(~P&~Q)。对于分析推理的有效模式,逻辑等价命题是非常重要的,因为它可以在任一命题间自由地相互替代而不影响它的真值结果。如果一个条件命题是同义反复的,我们就称结论是一个逻辑结论。用P⇒ Q来说明Q是P的一个逻辑结论。命题逻辑定律包括:幂等律、结合律、交换律、分配律、同一律、求补律、德摩根律、条件律、双条件律9种。逻辑命题的自然演绎,这部分主要是利用真值表和逻辑定律,进行推理的有效模式的分析。包括条件证明和间接证明。条件证明比较容易证明结论中包含一个作为主要连接者的条件语。间接证明非常频繁地使用在数学中,它们常常比一个直接证明更容易来构建。例如,证明空集是任何一个集合的子集。章节的最后部分讨论了荷兰逻辑学家贝思提出的描述语义表的贝思方法的相关内容。
命题逻辑中,是把简单命题作为基本单元或原子来看,不对简单命题的内部结构进行分析。对简单命题进一步剖析,引入谓词、变量并考虑到表示变量的数量上一般与个别的全称量词和存在量词,进而研究它们的形式结构和逻辑关系,这便是谓词逻辑。谓词逻辑是命题逻辑的发展,它的初级命题包括一个谓词和一些项。项有量词、个体词等。一个命题中,如果主词只有一个,表示该主词性质或属性的词为谓词;如果主词多于一个,那么表示该主词性质或属性的词为多元谓词。量词分为两大类:全称量词和存在量词。任何一个自然语言命题都可以用符号使其化为谓词逻辑的合式公式。对个体词作数量讨论与分析的谓词逻辑为“一阶谓词逻辑”。
命题逻辑和谓词逻辑可以对自然语句进行形式化的描述。命题逻辑表达问题的能力,仅限于联结词的使用。而谓词逻辑由于引入了谓词、量词和变元等,具有了很强的表达能力,已成为描述计算机所处理知识的有力工具。尤其是在人工智能中,已将谓词逻辑看作是一种基本的知识表示方法和推理方法。在自然语言处理中,语言的意义需要形式化的表示出来。其中一个重要的表示方法就是一阶谓词演算表示法,这种方法就是基于逻辑的形式化表达语义的方法。它的原子公式为:AtomicFormula → Predicate (Term…),Predicate是谓词,Term是项。项包括常量、函数、变量。如“妈妈爱孩子”这个命题,就包含一个二元谓词“爱”,其形式可以写成:爱(妈妈孩子)或(爱 妈妈 孩子)。又如:“她不是男孩”这个命题的形式化表示:(不(是 她男孩))。这些都是简单的命题,利用简单命题,我们能定义语言中一组非常有限的子集的意义,即那些由简单动词和专有名词组成的句子。为了说明更复杂的句子,就必须引入另一个项,也就是量词。关于一阶谓词演算的详细内容,可参见冯志伟(2004)的《机器翻译研究》。
形式系统、公理化和模型论这一章节内容很多,也是作者重点讨论的内容。这部分主要是从句法和语义的角度来研究形式系统。先引入了递归的定义,之后介绍了公理系统和推导。挪威数学家Axel Thue给扩展公理系统加上了一定的限制,提出了半图厄系统。它的定义是如果扩展公理系统(A、B、S、P)中的每个生成式格式都是双项的,并且具有形式αxβ→αyβ,那么这个扩展公理系统就叫做半图厄系统。这部分内容与冯志伟(1985)《数理语言学》中对半图厄系统的介绍一致。把乔姆斯基的形式语法同数学中的半图厄系统比较,可发现他的形式语法实质就是一个半图厄系统。章节中介绍了1959年美国华裔数理逻辑学家王浩提出的公理系统。该系统对公理的证明给出了算法,便于用计算机来实现定理的证明。所以有人也称其为公理证明的自动化系统。同时也介绍了集合的公理化、命题逻辑的公理化和谓词逻辑的公理化。集合论的ZF公理包括:外延性公理、正则公理、空集合公理、无序对集合公理、并集合公理、幂等集合公理、无穷公理、替换公理等8个公理。命题逻辑的公理系统:
定义:P→Q 是 ~P∨Q的缩写
P&Q 是 ~(~P∨~Q)的缩写
P↔Q 是(P→Q)&(Q→P)的缩写
4个公理:(P∨P)→P
推理规则:替换规则和取式。
谓词逻辑公理:(φ→(ψ→φ))
谓词逻辑的公理系统是建立在命题逻辑公理系统之上的。只是在公理和推理规则中增加了量词的引入和消去。
章节的最后介绍了哥德尔不完性定理和高阶逻辑等相关问题。B篇主要是从语言学的角度,介绍了离散数学的基本知识。
C篇介绍了抽象代数的基本理论。包括一些基本的概念、运算结构、格、布尔代数和赫廷代数。D篇以英语为例,介绍了形式语言的特性,以及一些理论和概念在语言学中的应用。
E篇语言、语法与自动机,共有7章,是全书的重要部分。这部分内容也是和计算语言学联系最紧密的部分。通过这一篇的阅读,我们更清楚地认识了一些问题。尤其是摸清了一些问题和数学之间的联系。16章基本概念主要介绍了语言、语法和自动机、树形图、语法和树形图、乔姆斯基层级、语言和自动机。17章至20章具体介绍了乔姆斯基层级。这几部分内容属于代数语言学的内容。形式语法是生成语言的句子的装置,是对语法分析过程的形式化。自动机是识别语言的工具。众所周知,自动机是一种理想化的机器,因为它只是抽象分析的工具,不具备实际的物质形态。根据自动机不同的结构和功能,可以分成:图灵机、线性有界自动机、下推自动机和有限自动机四种。它们又对应着不同的语言和语法。见表2。
表2 自动机、语法、语言对应表
|
自动机 |
语言 |
语法 |
|
有限自动机 |
正则语言 |
3型语法 |
|
下推自动机 |
上下文无关语言 |
上下文无关语法 |
|
线性有界自动机 |
上下文有关语言 |
1型语法 |
|
图灵机 |
递归可枚举语言 |
0型语法 |
16章树形图的内容,对我们来说已经不陌生了。结点之间的支配关系、前于关系以及标记,这些通过构造一棵短语结构树,可以理解得非常到位。我们通过学习中文信息MMT模型,已经掌握了汉语句子的多叉多标记树形图分析法。
21章中介绍了四种语法:索引语法、树邻接语法、中心词语法和范畴语法。它们的生成能力在上下文无关语法和上下文有关语法之间。
索引语法。根据Hopcroft和Ullman(1979)“在已被提出上下文无关语法中,一类‘索引’出现得最自然,因为它出现在各种各样的上下文中。”索引语法不同于上下文无关语法在于:非终极符号可带一系列从一个最初制定的有限集中选择出来的指标,并且它的产生允许增加或删减在派生过程中的指标。Gazdar 和 Pullum(1985)指出:没有一种现象能使人相信自然语言属于索引语言的范围。索引语言至少在现在提供给我们的是有一种句法现象的上限。这当然是语言被视为字符串集的假设。我们对索引语法的了解不是很多,还需要进一步阅读一些文献来理解和掌握。
树邻接语法。树邻接语法被Joshi和他的同事们设计出来,用来限制上下文无关语法的范围。在薄弱的生成能力方面,树邻接语法的地位处于上下文无关语法和索引语法之间。上下文无关语法Ì树邻接语法Ì索引语法。提出树邻接语法的原因是上下文无关语法过于简单,不足以限制一些不合法语言现象;上下文有关语法的分析又过于复杂,不适合实际应用。树邻接语法中有两种操作:替换和附加。替换是把一个树的根结点与另一个初始树中标为替换的非终结符叶子结点合并,生成一棵新树。附加是把一个附属树嫁接到一个初始树的任意非终结结点上。
中心词语法。该语法是1984年由Polland提出,这种语法也称中心词驱动的短语结构语法。它是在广义的短语结构语法的基础上提出的,基本上继承了广义短语结构语法的原则,但同时又吸收了词汇功能语法、范畴语法的优点,强调了词汇在语言构成中的重要地位。它以词汇为中心并根据自然语言处理的实践对语法规则进行了灵活改进。它通过一系列的限制规则和词的可继承的分类体系来体现词汇在整个句子中的作用。突出特点是特别强调中心语在语法分析中的作用,使整个语法系统由中心词来驱动。
范畴语法。范畴语法关于逻辑语言的语义范畴是基于Ajdukiewicz(1935)的研究。它作为自然语言的一个句法描述的系统,被巴尔希列尔(1953)提出来。蒙塔古在自然语言语义方面的研究是假设了一个范畴句法,这部分地导致了这种范畴语法体系的建立。范畴语法的思想是词汇条目不仅可以归于基本的范畴,如名词、动词,也可以归于一些复杂的范畴中,如S/VP, V/(NP/S)等。按照这种理论,任何词都可以根据它在句子中的功能归入一定的句法类型。用n表示名词的句法类型,用s表示句子,那么其他一切句法类型都可以用n和s以不同的方式结合起来表示。根据句法类型及运算规则可以对语言中任何词的序列进行判定,辨识它是否为该语言中的句子,如果通过有穷的运算步骤,可以把词的序列化为S,那么这个词的序列便是语言中成立的句子。范畴语法对自然语言处理是有价值的。
22章介绍了乔姆斯基的转换语法。对于乔姆斯基的转换语法的标准理论做出较大发展之一的是Peters 和Ritchie (1973)、Ginsburg 和Partee(1969)的研究,他们基于数学方法,对语言的语法进行了改造。一个转换语法的句法包括两部分:一是基本部分,上下文有关语法和上下文无关语法;二是转换部分,由一组转换规则组成。基础成分从初始符号s开始递归地生成无限层级的树。每一个这样的树都输入给转换规则,它绘制了从一棵树到另一棵树的地图。转换规则被假定是基于线性排列,一个的输出结果形成下一个的输入。如果一个给定的规则不能应用到一棵特定的树,那么这棵树将未改变并且规则序列的下一个规则将被考虑使用。在转换语法中,转换规则假定按照转换周期来应用。转换语法是对短语结构语法的改进,这种改进有合理之处,对语言学的研究具有重要的作用。该章后面的附录也是内容丰富,图示清楚,值得一读。
通读全书并按章节做了课后练习后,感觉很通透。读罢掩卷,对语言研究中使用的主要的数学方法有了清晰的了解和粗浅的掌握。本书非常适合语言学研究者,所讲的数学问题都是循序渐进,层层深入。许多问题都值得深入思考,认真琢磨才能完全读懂、吃透。语言虽是英语,但不晦涩,读起来很通顺。总体来讲,获益匪浅。阅读的过程中,不可避免地会遇到一些问题,相信这些问题会在今后的学习和研究实践中慢慢解决,慢慢理解。带着这些问题进行学习和研究,效果也会事半功倍。

加载中…