关于基于规则方法的反思【连载5】_白硕SH

http://blog.sina.com.cn/u/1922397344

首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

关于基于规则方法的反思【连载5】

(2012-09-19 12:48:05)

标签：

基于规则的方法

规则

伪歧义

大规模语料

真实语料

杂谈

【问6】有一种意见说，基于规则方法会造成大量的“伪歧义”，导致计算机凭空增加很多处理负担，无法有效处理大规模真实语料。是这样吗？

【答】所谓“伪歧义”，就是实际上人不觉得有歧义、但按照特定规则体系的分析却有歧义的结构。如果出现这种情况，只能说明该规则体系含有缺陷，而并不说明基于规则方法必然造成这种缺陷。

举个明显的伪歧义例子：“AB的中点和AC的中点的连线与BC平行。”这句话在几何上只有一种理解，就是“AB的中点”和“AC的中点”连了一条线，这条线与BC平行。但是，如果把表示线段的符号串、“中点”、“连线”不加差别地都归结为句法范畴NP，并且只允许使用上下文无关的句法规则，那么必然会出现多种分析结果。

这其实说明，NP是一个过于宽泛的句法范畴，不能精细刻画差异。因此，要么使用更精细的句法范畴或者次范畴（规则体系的改进），要么使用比上下文无关规则表达能力更强的规则体系（对“规则长什么样”进行调整），二者至少居其一，说不定都要有所变化。但是我们看到的情况是，忙于批评基于规则方法不行的人太多太多，扎扎实实去做这些改进的人太少太少。

我们看到，遇到这种伪歧义现象，首先是规则体系必须改进，其次是对“规则长什么样”的假设有可能调整。这些事情都没有做好做透，就说基于规则方法一定会造成大量“伪歧义”，这在逻辑上是经不起推敲的。

【问7】基于规则方法是不是不适用于大数据量语言信息处理？

【答】基于规则方法的实现，离不开与规则一般形态相对应的计算复杂度限制。上下文无关规则体系的分析效率，最坏情况介于输入文字长度的平方和立方量级之间。上下文相关规则体系的分析效率，最坏情况是NP完全的，也就是说在目前水平下只能是输入文字长度的指数量级。这些都是明确的理论分析结果。基于统计模型的算法，比如隐马尔科夫模型方法，最后归结为一个有特定数据形式的动态规划问题，可以用Viterbi算法在线性的时间内求解。但具有特定限制的上下文无关规则体系，比如LR(k)，复杂度也可以达到线性。退一步说，如果把规则体系重新理过，使得有90%以上的概率可以达到线性，9%的概率在平方量级，1%在立方量级，也是可以接受的。即使加入了次范畴信息和相应演算，如果是分析树制导的，在树的每个节点上的操作不超过常数个，数量级依然没有本质变化。所以，问题不在于最坏情形的时间复杂性，而在于时间复杂性在问题复杂性在问题空间上的期望值。更关键的，是规则体系对语料的广泛覆盖性和无伪歧义性。这些问题，比空对空地分析基于规则方法的时间复杂性要重要得多。

【问9】基于规则方法是不是不适用于真实语料？

【答】如果把真实语料和语言学教材中的语料相对照，可以发现最大的差别有两点：一个是真实语料的规范性较差，经常出现不规范、非预期的搭配和套用；另一个是真实语料的完整性较差，真实语料经常缺少一些看起来必备的成分。对于汉语而言，逗号的功能与西方语言差别甚大，各种缺少“必备成分”的小句、支句在逗号的分隔下一逗到底，给汉语跨逗号句法分析增加了难度。但是，大部分情况下，被逗号分隔的小句、支句其实都可以视作单句，只不过是缺少一些必备成分的单句。这些必备成分可以通过跨逗号的篇章分析方法予以还原。所以，只需要讨论不规范和不完整两种情况即可。

对于不规范的搭配和套用，一般的应对方法是“结构强制”，也就是说，让周边的规范的语言成分组成强有力的语境，来强制纠正使搭配和套用显得不规范、非预期的成分。这种方法，一方面可以体现对非规范、非预期语言现象的容忍，另一方面也为这些现象久而久之转化成为规范、正常的语言现象提供了识别和统计的入口。这一点我们后面还会提到。

对于缺少必备成分的非完整结构，一般的应对方法是利用上下文信息补全。必备成分的缺失有多种情形，穷尽所有的情形及其上下文条件，确实是非常困难的，也是语用学研究的巨大挑战。但补全这件事情，在很多应用里不是必须的。就拿机器翻译来说，以目标语言的不完整来应对源语言的不完整，在绝大多数场合下都是可以说得过去的。所以，如果能够在规则层面允许非完整结构的存在，就可以更好地让规则服务于应用。更何况，随着语用学研究的进展，未来还有进一步改进的余地。因此并不是说因为结构不够完整，就导致整个基于规则方法不可用。

我们不同意那种“真实语料拜物教”式的观点，即“所有真实存在的语料一定是规范的、完整的，如果跟规则不一致就一定是规则不准确”这样一种看法。实际上，说语料不规范、不完整，无损于真实语料的客观性和权威性，只是说要动用另外一种处理机制而已。比如普通短语被结构强制成专名的现象，如果一定要混为一谈，强行把现实的潜在的专名都收入词典，纳入同一种处理机制，反而是把问题搞复杂了。

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report

前一篇：我的博客今天1岁229天了，我领取了新锐博主徽章

后一篇：关于基于规则方法的反思【连载6】

新浪BLOG意见反馈留言板　欢迎批评指正