有限状态语法和它的局限性

标签:
有限状态语法乔姆斯基形态分析 |
我们建立如下的词典:
みじかく:形容词みじかしい(短的)的连用形;
なり:动词なる的连用形;
ます:表敬体的动词ます的终止形。
在上面的状态图中,从初始状态开始,沿着箭头所指的方向遍历这个状态图,同时把词典中有关的信息记录在“みじかくなります”上,便实现了这个短语的形态分析。
中缀附加于词根(或词干)之中。如他加禄语(Tagalog)中的-um-往往表过去时:sulat(写)--sumulat(写过了)。
屈折语中一般没有中缀,因此,我们在为屈折语形态分析设计状态图时,只考虑前缀和后缀。
在屈折语的一个单词中,前缀、词干、后缀和词尾的关系有如下几种情况:
-- 单词只有词干。例如,英语的form (形式)。
-- 单词由前缀和词干组成。例如,英语的reform(改革,re-是前缀,form是词干)。
-- 单词由词根和后缀组成。例如,英语的formation(形成,form是词根,-ation 是后缀)。
-- 单词由前缀、词根和后缀组成。例如,英语的reformation(革新,re-是前缀,form是词根,-ation是后缀)。
-- 单词由词干和词尾组成。例如,英语的forms(“形式”一词的复数,form是词干,-s是词尾)。
-- 单词由词根、后缀和词尾组成。例如,英语的formations(“形成”一词的复数,form是词根,-ation是后缀,-s 是词尾)。
-- 单词由前缀、词根、后缀和词尾组成。例如,英语的reformations(“革新”的复数,re-是前缀,form是词根,-ation是后缀,-s是词尾)。
因此,我们设计如下的状态图来进行英语名词的各种变化形式的形态分析。
然而,由于有限状态语法的重写规则的形式限制较严,它存在着如下的缺陷:
第一,一些由非常简单的符号串构成的形式语言,不能由有限状态语法生成。Chomsky举出了如下三种形式语言:
① ab, aabb, aaabbb,……,它们的全部句子都是由若干个a后面跟着同样数目的b组成的,这种形式语言可表示为L1={anbn},其中,n ≥1。
② aa, bb, abba, baab, aaaa, bbbb, aabbaa, abbbba,……,这种形式语言是没有中心元素的镜像结构语言。如果用α表示集合{a,b}上的任意非空符号串,用α*表示α的镜像,那么,这种语言可以表示为 L2={αα*}。
③ aa, bb, abab, aaaa, bbbb, aabaab, abbabb,……,它的全部句子是由若干个a或若干个b构成的符号串α,后面跟着而且只跟着完全相同的符号串α而组成的,如果α表示集合{a,b}上的任意非空符号串,那么,这种语言可表示为L3={αα}。
L1,L2,L3都不能由有限状态语法生成,可见这种语法的生成能力不强。
第二,在英语中存在着如下形式的句子:
Chez la maitresse d’un member d’une societe linguistique enrhume envoyee à Paris.
(在巴黎语言学会的一个患感冒的会员的出差到巴黎的女教师家里)
我们可以看到,在这个句子中,societe与linguistique相配(都是阴性),member与enrhume相配(都是阳性),maitresse与envoyee相配(都是阴性),因而形成abccba这样的镜像结构。前面我们说过,这样的句子是不能由有限状态语法来生成的。
第三,美国语言学家P. Poster (波斯塔)在《短语结构语法的局限性》(Limitation of phrase structure grammar, 1964)中指出 ,在印第安的Mohawk语中,动词的宾语要在动词的前后按相同的顺序复现。
例如,“我读书”,在Mohawk语中是:
第四,有限状态语法不适合于刻画自然语言的句法结构。例如,上面我们的那个表示存现的汉语句子“客厅里坐着两位客人”,表示其句法结构的状态图显得十分复杂,如果遇到汉语
的套迭和递归等结构,其状态图不知要有多么复杂。可见,有限状态语法作为一种刻画自然语言句法结构的模型是不合格的。
第五,有限状态语法只能说明语言中各个符号的前后排列顺序,而不能说明语言符号的层次,因此,它不能解释自然语言中的许多歧义现象。例如,在英语中,“They are flying planes ”这个句子有两个不同的意思:一个意思是“它们是正在飞的飞机”[试比较:Those specks on the horizon are flying planes(那些在地平线上的小黑点儿是正在飞着的飞机)];另一个意思是“他们正在驾驶飞机“[试比较:Those pilots are flying planes(那些飞行员正在驾驶飞机)]。这种意义上的差别,用有限状态语法得不到说明。可见,有限状态语法的对语言现象的解释力不强。