从“东西吃光了”和“老虎吃牛了”看伪歧义如何剔除_白硕SH

http://blog.sina.com.cn/u/1922397344

首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

从“东西吃光了”和“老虎吃牛了”看伪歧义如何剔除

(2012-10-12 13:46:01)

标签：

伪歧义

次范畴

轻度标注

裸标签

cfg

杂谈

长假前，到学术界一个分析器网站上去逛了逛。很偶然地，我随手输入了一个例子“东西吃光了”，本意是测试那个分析器针对述补结构的处理能力。可这一测不要紧，结果令我大吃一惊——“吃光”被处理成了述宾结构，“光”的占优词类标记赫然写着“n(名词)”！主谓宾齐全了，我却被雷到了。

错了吗？“光”确实是名词啊，确实可以做宾语啊。“光”作为名词出现的概率，确实大大高于作为形容词出现的概率啊。一切解释都是那么完美。计算机没有错，严格按照语法书上的说法，也尊重了语料中的统计分布特点。可人也没有错啊，说到“东西吃光了”，谁会想到这个“光”是名词呢？除非在童话、科幻、隐喻的意义上说“黑洞吃光了”还差不多。既然计算机和人都没错，难道是语言学错了？

我又想了个例子，“老虎吃牛了”。这一回，人和计算机走到了一起，都把“牛”理解成名词、宾语，即使“牛”也兼有词类属性为形容词的一个义项(如“他很牛”)，而形容词也可以做补语，但是在由语料决定的概率面前，它翻不起什么大浪。

由此，我对“是什么抹掉了CFG层面的伪歧义”产生了浓厚的兴趣。在十一长假的旅游路上，这两个例子不时拂过脑海。我感到，确实是系统隐含使用的语言学知识不完备。这是在次范畴层面存在规则与统计结合点的一个有力的证据。让我展开来详细说明这一点。

什么是次范畴？说白了就是成分的不能用词类属性刻画的特征。如果我们认为名词、动词、形容词等这些词类属性已经稳定地构成了一个CFG体系，而这个体系下尚有大量伪歧义不能剔除，那么，在这个场合下能够用来区分成分的性质并借助这些性质表述剔除伪歧义操作的规则，就是次范畴层面的规则。

比如，作为名词的“光”，具有“物理对象”的次范畴属性，而动词“吃”的受事，具有“食物”的属性。二者一旦不能匹配，或者上下文中没有另外的物理对象如“黑洞”去激活用“吃”代“吞没”的隐喻，那么次范畴层面的规则就排斥这个CFG句法层面的“述宾结构”。当排斥完成时，作为形容词且做补语的“光”自然就浮出水面。

而作为形容词的“牛”，具有“心理状态”的次范畴属性，而动词“吃”，不太可能作为导致心理状态发生变化的引导因素。因此，在次范畴层面，本来二者就不匹配。况且，作为名词的“牛”既是动物，也是食物。这样一来，统计上占优的述宾结构，在次范畴层面也是匹配的。可以说，还轮不到讨论“牛”是形容词的场景，这一切就搞定了。

次范畴从哪里来？我们在谈“食物”、“物理对象”、“心理状态”等次范畴的时候，似乎它们是天上掉下来的，其实不是。有很多次范畴层面的基础资源，有的被当做“语义词典”。著名的“知网”就可以看做一个次范畴词典。当然，次范畴不见得非得是跟语义沾边儿的。有些次范畴跟语义不沾边，比如字数，比如是否是联合结构，等等。但是在有些场合，这些次范畴同样起着剔除伪歧义的作用。所以，把什么列为次范畴，首要的标准是它可以帮助剔除伪歧义。我不认为在现阶段次范畴可以通过无标注语料百分之百自动地学习。由人工标注次范畴词典，目前还是一项必须的基础性工作。

接下来，次范畴规则长什么样？这是更加核心的问题。我的回答是：次范畴规则长什么样，是一项很有技巧性、创造性的工作，其核心在于当需要检查次范畴搭配的合法性的时候，暴露出来的成分不一定像“东西吃光了”当中的“吃”与“光”、“老虎吃牛了”当中的“吃”与“牛”之间的顺序关系那么理想，可能逆序，可能远距离相关，可能逆序与远距离相关叠加出现。搞定这件事情的理论模型和实现方案，对深层NLP的学术意义不言而喻。

再接下来，次范畴规则从哪里来？我的回答是：在CFG规则基本成熟、次范畴词典相对完善的前提下，次范畴规则可以从无标注语料当中学习。当然要想提高学习效率，可以对语料中的多义词仅标注义项（而且标注义项的工具可以采用更加友好的GUI包装起来，并不一定要赤裸裸地让标注者使用裸标签）。鉴于当下人们所说的学习其实都是在笛卡尔积（多元组）或欧氏空间（向量）意义下的学习，规则与统计的分界点选择，也是具有高度技巧性的一项工作。

总起来说，我对次范畴领域的工作思路建议是：（1）稳定一个CFG框架；（2）人工标注次范畴词典；（3）设计好次范畴规则长什么样；（4）使用无标注语料或仅由人工标注义项的“轻度标注语料”；（5）自动学习次范畴规则。如果学出来的规则不满意，反馈至（2）或（3）进一步调整，如果调整了（2）则需据此对（4）中的轻度标注语料进行微调。在CFG层次与次范畴层次衔接方面，次范畴规则一定要依托于CFG提供的层次结构的“制导”或“驱动”来施用。其施用的结果是不断砍掉CFG层面的伪歧义结构，剩下次范畴层面合理的CFG层次结构。

还有一个细节，就是特定词语触发特定解释的时候，次范畴不能向上匹配而必须向下匹配，就是说不能因为“东西”是“物理对象”的上位概念就拿“东西”触发跟物理有关的特定隐喻解释。必须明确是的下位概念，才可以这么做。这和一般的“合一”是不同的。

当然，里面有些关键点说不得。做好了再说，不晚。

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report

前一篇：关于基于规则方法的反思【连载6】

后一篇：汉语里有后置定语吗？

新浪BLOG意见反馈留言板　欢迎批评指正