加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

关于基于规则方法的反思【连载6】

(2012-09-22 19:25:16)
标签:

基于规则的方法

规则

泛化

学习

高原效应

【问10】基于规则的方法的泛化能力是否注定不如基于统计的方法?

 

【答】泛化能力是一种极其重要的能力。人类的本族语言习得和传承,基本上靠的是先天机制加上泛化能力。学校教育只解决文字的传承问题,不解决本族语言的习得问题。

    语言看上去是复杂的,语言的边界看上去是零乱古怪的。但是我们坚信,上帝不会无缘无故抛开简单的机制不用,偏偏把人的语言理解和生成机制制造得复杂无比。复杂的表象背后一定有简单的核心。河流的形状虽然复杂,但那是地貌和水量的复杂造成的,说到水往何处流,只需要非常简单的物理定律。给定了地貌和水量,河流的形状再复杂也立马搞定。同样,自然语言处理的最高境界,就是用语料的复杂性决定语言边界的复杂性,而让语言的学习和处理机制尽可能简单。当年声纳制导的路径规划系统也是这个路子。机器人走出来的路径虽然复杂,却只是折射了环境的复杂,机器人路径规划的逻辑是非常简单的。

    从目前现状看,单纯从方法论角度来评价的话,基于统计的方法无疑离这个“四两拨千斤”的最高境界要更近一些。简单得近乎千篇一律的隐马模型,喂给它不同的标注语料,就被训练成了不同的语言处理功能模块乃至应用系统。唯一美中不足的,就是语料还不能不标注,还没法不依赖任何标注体系。但是我们也应该知道,恰恰是这些模型本身隐含了所用到的语言学知识“长什么样”的假设,这些标注同样也渗透了对所用到的语言学知识“长什么样”的某种理解。模型和标注体系,都是不随语料而变的。这部分不变的东西,从根子上限定了基于统计方法的作为。

    至于说到基于规则的方法,跟无标注语料放在一起自动化地互动,目前还是很遥远的梦想。基于已标注好的树库,实际上不能学习新的规则,更不能修改错的规则。基于规则方法的闭环反馈体现在“规则调试”的流程,而这个流程已经把语言学家紧紧地耦合进去了。所以,如果离开语言学家,一个基于规则的系统很难做到简单,也很难持续有所长进。尽管如此,前面提到的那种境界,没有理由不是基于规则方法同样应该孜孜以求的。

    一边是简单模型加上足够丰富的训练语料(当然还只能是标注语料)后在更大规模的测试语料上产生了并非完全不靠谱的泛化能力,另一边是在规则适用的范围内表现大体符合预期,在规则不适用的范围内差不多完全无所作为,和知识工程领域对专家系统的“高原效应”评价类似。难怪有人说, “基于统计的方法像疯子,基于规则的方法像傻子”。

    然而,泛化并非是无代价的。不做或少做泛化也并非没有可取之处,知之为知之不知为不知,在有的场景下也是一种合情理的低调。毕竟,又不“疯”又不“傻”的语言学知识表示机制和语言处理机制,目前还不存在。用户可以根据实际需要选择一个合适的平衡点。但是,没有任何过硬的证据证明,使用基于规则的方法,根本就无法实现目前基于统计的方法所能实现的那种泛化能力。

    如果非要说点建设性的意见的话,在基于规则的方法中植入基于语料的泛化能力,要基于CFG范畴和次范畴分层的客观现实。CFG规则不宜复杂也不宜经常变动,维持在语言学家人力可维护的规模;次范畴层面的标注体系以人工设计为宜,其基础资源库要人工标注,但次范畴层面的规则提取一定要基于非标注语料,而且一定要自动化进行。为了使用成熟的机器学习技术,在次范畴层面暴露给机器学习机制的结构一定要“扁平”至笛卡尔积(关系式数据)乃至欧氏空间(向量数据)的程度。为了兼顾自然语言递归层级结构和远距离相关的事实,这种“暴露”是极具技巧性的。另一种完全不同的思路是直接在非标注语料上进行类比推理,这是比较冒进但可能蕴育重大突破的方向。

 

【问11】你对基于规则方法未来发展的总结性观点和建议是什么?

 

【答】特定规则体系的弱点不等于表示规则的形式化框架的弱点。当前占主导地位的表示规则的形式化框架的弱点不等于基于规则方法本身的弱点。基于规则方法不排斥学习、不排斥基于语料的方法,它的建设性潜力远未穷尽。对基于规则方法构成实质性挑战的硬证据至今并未出现。希望仍在坚持基于规则方法的研究者读后有所启发,希望从事基于统计方法的研究者读后多一个看待基于规则方法的视角。

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有