加载中…
个人资料
冯志伟文化博客
冯志伟文化博客
  • 博客等级:
  • 博客积分:0
  • 博客访问:737,487
  • 关注人气:1,291
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
相关博文
推荐博文
谁看过这篇博文
加载中…
正文 字体大小:

八十老翁,平生无悔(3)

(2021-01-02 09:43:12)
标签:

冯志伟

人工智能

术语学

语言学

自然语言处理

八十老翁,平生无悔(3)

八十老翁,平生无悔(3)

冯志伟

3.研究生成语法的公理化方法。我对于美国语言学家乔姆斯基(N. Chomsky)的形式文法的数学原理有浓厚的兴趣,从公理化方法的角度来研究乔姆斯基的形式文法,我把乔姆斯基的形式文法同数学中的半图厄系统(semi-Thue system)相比较,指出了乔姆斯基的形式文法,不过是数学中的公理系统理论在语言分析中的应用而已,语言就是由文法这一公理系统从初始符号出发推导出的无限句子的集合;文法的规则是有限的,文法中的终极符号和非终极符号的数目也是有限的,可是,由于语言符号具有递归性,文法这一公理系统就能够根据有限的符号,通过有限的重写规则,递归地推导出无限的句子来。我的这项研究从数学的基础理论方面揭示了形式文法的实质。

    4.提出多叉多标记树模型,研制了世界上第一个把汉语自动地翻译成多种外语的多语言机器翻译系统。乔姆斯基根据形式语法的原理,提出了短语结构语法来作为自然语言形式描述的一种手段,这种语法在自然语言处理中得到了广泛的使用。国内外的许多机器翻译系统都采用乔姆斯基的短语结构语法作为系统设计的基本理论依据,根据乔姆斯基的短语结构语法,表示句子结构的树形图中的每一个结点只有一个相应的标记,结点与标记之间的这种关系是一种单值标记函数的关系。这种单值标记函数表示的语言特征是十分有限的,因而在机器翻译的语言分析和生成中,会产生大量的歧义结构,形成大量的不合语法的句子,它的分析能力有限,生成能力过强,这是短语结构语法的一个致命的缺点。我在法国研制开发机器翻译系统的实践中,就敏锐地认识到短语结构语法的这种致命缺点,经过在计算机上编写程序进行潜心钻研和反复试验,我提出了多叉多标记树模型(Multiple-branched and Multiple-

labeled Tree Model,简称MMT模型),在这个模型中,我采用多值标记函数来代替短语结构语法的单值标记函数,使得树形图中的一个结点,不再仅仅对应于一个标记,而是对应于若干个标记,这样便大大地提高了树形图的标记能力,使得树形图的各个结点上,都能记录足够多的语法语义信息,把句子中所蕴含的丰富多彩的信息充分地表示出来。这种多值标记函数的理论,从根本上克服了乔姆斯基的短语结构语法在描述自然语言时的严重缺点,提高了其有限的分析能力,限制了其过强的生成能力。我当时提出的MMT模型是对乔姆斯基短语结构语法的一个带有实质意义的重要改进,提出后立即引起了国际语言学界的重视。在1982年于布拉格召开的国际计算语言学会议(COLING'82)上,在1983年于北京召开的国际中文信息处理会议(ICCIP'83)上,在1984年于香港召开的东南亚电脑会议(SEARCC'84)上,都讨论了MMT模型。就在我提出MMT模型的同时,国外一些计算语言学家也看到了短语结构语法的局限性,分别提出了各种手段来改进它。例如,1983年卡普兰(R. M. Kaplan)和布列斯南(J. Bresnan)提出词汇功能语法1983年马丁·凯依(Martin Kay)提出的功能合一语法1985年盖兹达(G. Gazdar)等提出的广义短语结构语法1985 年珀拉德(C. Pollard)提出的中心语驱动的短语结构语法等,都采用了复杂特征描述自然语言,他们所说的所复杂特征实际上也就是我提出的多值标记名异而实同。所以,我提出的MMT模型是世界计算语言学者对乔姆斯基的短语结构语法进行改进的一个重要方面和不可分割的组成部分,MMT模型是20世纪80年代较早提出的一个旨在改进短语结构语法的形式化模型,当时我国学者在这方面的研究在国际上是处于前沿地位的。1984年荷兰阿姆斯特丹北荷兰出版社出版的多卷专著《计算机科学基础研究》第9卷《自然语言处理的计算机模型》一书(由意大利米兰大学主编)中,曾详细介绍了我的MMT模型,并评论说:冯氏关于独立分析-独立生成的主张,关于尽可能地从源语言分析中获取多方面信息的主张,是当前自然语言处理研究中的一个重要进展

我还结合汉语的特点需要,研究了采用MMT模型来进行汉语自动分析的各种问题。我指出,在汉语的自动分析中,采多值标记必要性更加明显。这是因为汉语的句子不能只用词类或词组类型等简单特征来描述,汉语句子各个成分的词类、词组类型、句法功能、语义关系、逻辑关系之间,存在着极为错综复杂的关系,如果只采用简单特征,就无法区分各种歧义现象,达不到汉语自动处理的目的。具体地说,这是由于:(1)汉语句子中的词组类型(或词类)与句法功能之间不存在简单的一一对应关系;(2)汉语句子中词组类型(或词类)和句法功能相同的成分,它们与句子中其他成分的语义关系还可能不同,句法功能和语义关系之间也不是简单地一一对应的;(3)汉语中单词所固有的语法特征和语义特征,对于判别词组结构的性质,往往有很大的参考价值,除了词组类型这样的简单特征之外,再加上单词固有的语法特征和语义特征,采用多值标记来描述,就可以判断词组结构的性质。

我还提出了用于多值标记的汉语特征/统,特征可分为静态特征和动态特征两大类,建立了汉语自动分析的双态系统(bi-state system)。其中,静态特征有:词类特征、单词的固有语义特征和它的值、词的固有语法特征和它的值;动态特征有:词组类型特征和它的值、句法功能特征、语义关系特征、逻辑关系特征。在自动句法语义分析中,静态特征是计算机进行运算的基础,计算机依赖于这些预先在词典中给出的静态特征,通过有穷步运算,逐渐计算出各种动态特征,从而逐步弄清楚汉语句子中各个语言成分之间的关系,达到句法语义分析的目的。

我使用MMT模型,在格勒诺布尔理科医科大学应用数学研究所的大型计算机上,完成了-////德多语言机器翻译试验,建立了FAJRA系统(FAJRA分别是法文的法语、英语、日语、俄语和德语的首字母简称)。

当时MMT模型采用的方法,是基于语言规则的理性主义方法。我学会了计算机编程技术,在计算机上编写了汉语分析规则5000条左右,法语、英语、日语、俄语和德语的转换规则和生成规则各3000条左右,一共20000多条规则。此外,我还编制了若干部机器可读的、代码化的机器翻译词典。这个机器翻译系统涉及到多种语言,问题极为复杂,在研究的时候,似乎是从零数到无限大,越是往前研究,问题就越来越多,就越觉得前面充满了险阻,困难重重,有看不到尽头的感觉。由于问题复杂,工作量极大,我每天工作时间都超过10小时,扎扎实实苦干了三年,于198111月在IBM 4341大型计算机上输出了法语、英语、日语、俄语和德语等五种语言的机器翻译译文。这是世界上第一个把汉语自动地翻译成多种外语的机器翻译系统。

1982年回国之后,我又继续使用MMT模型,于1985年在北京市遥感技术研究所的大型计算机上,进行了-汉机器翻译试验和法-机器翻译试验,建立了GCAT-汉机器翻译系统和FCAT-汉机器翻译系统。

0

阅读 评论 收藏 转载 喜欢 打印举报/Report
  • 评论加载中,请稍候...
发评论

    发评论

    以上网友发言只代表其个人观点,不代表新浪网的观点或立场。

      

    新浪BLOG意见反馈留言板 欢迎批评指正

    新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

    新浪公司 版权所有