加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

关于基于规则方法的反思【连载5】

(2012-09-19 12:48:05)
标签:

基于规则的方法

规则

伪歧义

大规模语料

真实语料

杂谈

【问6】有一种意见说,基于规则方法会造成大量的“伪歧义”,导致计算机凭空增加很多处理负担,无法有效处理大规模真实语料。是这样吗?

【答】所谓“伪歧义”,就是实际上人不觉得有歧义、但按照特定规则体系的分析却有歧义的结构。如果出现这种情况,只能说明该规则体系含有缺陷,而并不说明基于规则方法必然造成这种缺陷。
    举个明显的伪歧义例子:“AB的中点和AC的中点的连线与BC平行。”这句话在几何上只有一种理解,就是“AB的中点”和“AC的中点”连了一条线,这条线与BC平行。但是,如果把表示线段的符号串、“中点”、“连线”不加差别地都归结为句法范畴NP,并且只允许使用上下文无关的句法规则,那么必然会出现多种分析结果。
    这其实说明,NP是一个过于宽泛的句法范畴,不能精细刻画差异。因此,要么使用更精细的句法范畴或者次范畴(规则体系的改进),要么使用比上下文无关规则表达能力更强的规则体系(对“规则长什么样”进行调整),二者至少居其一,说不定都要有所变化。但是我们看到的情况是,忙于批评基于规则方法不行的人太多太多,扎扎实实去做这些改进的人太少太少。
    我们看到,遇到这种伪歧义现象,首先是规则体系必须改进,其次是对“规则长什么样”的假设有可能调整。这些事情都没有做好做透,就说基于规则方法一定会造成大量“伪歧义”,这在逻辑上是经不起推敲的。

【问7】基于规则方法是不是不适用于大数据量语言信息处理?

【答】基于规则方法的实现,离不开与规则一般形态相对应的计算复杂度限制。上下文无关规则体系的分析效率,最坏情况介于输入文字长度的平方和立方量级之间。上下文相关规则体系的分析效率,最坏情况是NP完全的,也就是说在目前水平下只能是输入文字长度的指数量级。这些都是明确的理论分析结果。基于统计模型的算法,比如隐马尔科夫模型方法,最后归结为一个有特定数据形式的动态规划问题,可以用Viterbi算法在线性的时间内求解。但具有特定限制的上下文无关规则体系,比如LR(k),复杂度也可以达到线性。退一步说,如果把规则体系重新理过,使得有90%以上的概率可以达到线性,9%的概率在平方量级,1%在立方量级,也是可以接受的。即使加入了次范畴信息和相应演算,如果是分析树制导的,在树的每个节点上的操作不超过常数个,数量级依然没有本质变化。所以,问题不在于最坏情形的时间复杂性,而在于时间复杂性在问题复杂性在问题空间上的期望值。更关键的,是规则体系对语料的广泛覆盖性和无伪歧义性。这些问题,比空对空地分析基于规则方法的时间复杂性要重要得多。

【问9】基于规则方法是不是不适用于真实语料?

【答】如果把真实语料和语言学教材中的语料相对照,可以发现最大的差别有两点:一个是真实语料的规范性较差,经常出现不规范、非预期的搭配和套用;另一个是真实语料的完整性较差,真实语料经常缺少一些看起来必备的成分。对于汉语而言,逗号的功能与西方语言差别甚大,各种缺少“必备成分”的小句、支句在逗号的分隔下一逗到底,给汉语跨逗号句法分析增加了难度。但是,大部分情况下,被逗号分隔的小句、支句其实都可以视作单句,只不过是缺少一些必备成分的单句。这些必备成分可以通过跨逗号的篇章分析方法予以还原。所以,只需要讨论不规范和不完整两种情况即可。
    对于不规范的搭配和套用,一般的应对方法是“结构强制”,也就是说,让周边的规范的语言成分组成强有力的语境,来强制纠正使搭配和套用显得不规范、非预期的成分。这种方法,一方面可以体现对非规范、非预期语言现象的容忍,另一方面也为这些现象久而久之转化成为规范、正常的语言现象提供了识别和统计的入口。这一点我们后面还会提到。
    对于缺少必备成分的非完整结构,一般的应对方法是利用上下文信息补全。必备成分的缺失有多种情形,穷尽所有的情形及其上下文条件,确实是非常困难的,也是语用学研究的巨大挑战。但补全这件事情,在很多应用里不是必须的。就拿机器翻译来说,以目标语言的不完整来应对源语言的不完整,在绝大多数场合下都是可以说得过去的。所以,如果能够在规则层面允许非完整结构的存在,就可以更好地让规则服务于应用。更何况,随着语用学研究的进展,未来还有进一步改进的余地。因此并不是说因为结构不够完整,就导致整个基于规则方法不可用。
    我们不同意那种“真实语料拜物教”式的观点,即“所有真实存在的语料一定是规范的、完整的,如果跟规则不一致就一定是规则不准确”这样一种看法。实际上,说语料不规范、不完整,无损于真实语料的客观性和权威性,只是说要动用另外一种处理机制而已。比如普通短语被结构强制成专名的现象,如果一定要混为一谈,强行把现实的潜在的专名都收入词典,纳入同一种处理机制,反而是把问题搞复杂了。

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有