加载中…
个人资料
冯志伟文化博客
冯志伟文化博客
  • 博客等级:
  • 博客积分:0
  • 博客访问:713,287
  • 关注人气:1,291
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
相关博文
推荐博文
谁看过这篇博文
加载中…
正文 字体大小:

打破“乔家大院”的枷锁,NLP的发展需要深入探索语言本质

(2021-06-18 17:53:40)
标签:

人工智能

语言学

自然语言处理

冯志伟

先锋洞见 | 白硕:打破“乔家大院”的枷锁,NLP的发展需要深入探索语言本质

原创 白硕 恒生技术之眼 昨天
收录于话题
#人工智能21
#NLP9
图片


当下我们正处于人工智能发展的拐点,将进入更深的层次:难度更大,同时问题定义的清晰程度越来越高。进一步发展的难点可能与情感有关,可能与常识有关,可能与语言本身的一些特点有关,如果不能克服这些难点,很可能会止步不前。笔者认为,为了实现更深层次的智能,NLP研究将出现两种主要的趋势,一是继续追求更大的模型、更多的数据、更强的算力来研究自然语言;另一种是深入探索语言的本质,找到更多规律性的东西来指导NLP的实践,而这需要正本清源,打破“乔家大院”、也即语言学祖师爷乔姆斯基所画的形式语言类型谱系划分格局带来的枷锁。


“乔家大院”为NLP的发展套上了枷锁?


在流派上,NLP可分为理性主义与经验主义。理性主义采用第一性原理驱动的研究方式(第一性原理是某些硬性规定或推演得出的结论),认为用规则等硬性规定可以将何为语言描述清楚,因此非常需要语言专家,将对语言透彻的了解转化为机器能够读懂的表示,能够演绎、直指“要害”。


经验主义采用数据驱动的研究方式,认为语言就是统计模型,起源于上世纪90年代,在2010年前后由于深度学习的发展而回暖,最典型的是目前各种网站中的机器翻译均已采用基于神经网络的方式。经验主义需要带标注的数据,在数据量不全、资源或特征不够等情况下可能会出现一些错误,但其最大的优势在于鲁棒、灵活,能够允许人说话不规范。


与数据驱动对比,第一性原理驱动的方法显得非常脆弱:必须符合规则,可能要写几条规则来适应同一个语言现象。这不仅让人怀疑语言到底有没有第一性原理。1988年,国外一位学者在自然语言处理评测讨论会上说:“每当我解雇一个语言学家,语音识别系统的性能就会改善一些。”这说明语言学家在其团队里起负面的作用,让系统被规则锁住了。


为什么会出现这样的状况?这要从当代语言学祖师爷乔姆斯基说起。乔姆斯基提出了语言普遍性(Linguistic Universal),也即不论对于哪种语言都存在普适的原则,不同的语言只不过参数不同。笔者曾经写过一篇文章,《穿越乔家大院寻找“毛毛虫”》,这里的“乔家大院”是指乔姆斯基所画的形式语言类型谱系划分格局,这座大院带来的影响主要包括两个方面:第一个方面可以称之为“外向恐惧情结”,对自然语言的描述压力全部集中在上下文无关文法,而自然语言是具有上下文相关性的;第二个方面可以称之为“内向求全情结”,取得了局部成功,但也带来了递归的滥用,使得很多资源都投入到应对“不像人话”的实例上。可以说,NLP领域统计方法之所以在很长时间内压倒规则方法,在一定程度上,就是向外恐惧情结与内向求全情结叠加造成的


如果认同“一切以真实的自然语言为出发点和最终落脚点”的理念,那就应该承认:向外有限突破,向内大举压缩,应该是一枚硬币的两面。理想中的自然语言句法的形式化描述机制,应该像一条穿越乔家大院的“毛毛虫”。毛毛虫上有很细很薄的毛刺,那么毛刺与主体的刻画方式肯定不会相同。自然语言也是一样,如果让分析与生成使用同一套规则,只会让语法越来越细,平白无故让语言带上了很多枷锁。因此自然语言需要两个边界:内包络用于生成,生成的内容要规范,需要采用稳妥策略,尽量使用标准的、没有风险的表述;外包络用于分析,进行分析的内容要允许其不规范,需要具有足够的容错性,因为我们没办法规范所有人的语言。


所以,基于第一性原理的NLP技术路线之所以不尽如人意,并不是因为自然语言没有第一性原理可言,而是早期对自然语言第一性原理的探索走上了不太正确的轨道。要使这条路线继续焕发青春,要从正本清源做起。


自然语言精准解析的新途径


带着对语言的第一性原理的思考,笔者一直在探索直面语言本质的自然语言处理方法,探索能够兼顾上文所说的“内”与“外”的自然语言句法形式化描述机制。句法描述有三大流派,PSG/CFG(短语结构语法/上下文无关语法)直观,DG(依存语法)简洁,CG/CCG(范畴语法/组合范畴语法)严谨,但都不能处理灵活语序以及灵活的词类变通。吸收三大流派的优点,笔者提出了关联语法,既继承了依存语法的简洁,又继承了范畴语法的严谨,还对三大流派都无法妥善处理但又广泛存在的交叉关联现象进行了细致的刻画。


关联语法具有四个基本原则:词典化(Lexicalized),免规则,由词来负载结构;单子化(Singleton),免复杂层次;局域化(Localized),免跨成分关联;鲁棒性(Robustness),具有对灵活语序和修辞性失配的适应性,能够处理灵活的省略、词类变性、语序调整等。


图片

关联语法的词性标注(部分)


在关联语法中,角色提供者(Role provider)与角色充当者(Role player)可以用“坑”与“萝卜”来形象地比喻,例如下图中的S/2N(及物动词)是角色提供者,“2N”表示挖了2个“坑”,除号无方向,可以适应灵活语序;N(无价名词)是角色充当者,是用来填坑的“萝卜”,一个萝卜一个坑。


图片

“坑”与“萝卜”


例如下图“小张把眼睛哭肿了”这句话,想让机器理解需要解决三个问题:谁哭?什么肿?谁的眼睛?这其中涉及语义相谐的问题,例如肿的本体标签是部位,部位肿只能与眼睛匹配;哭的本体标签是人,因此要跟小张匹配;小张和眼睛的关系是领属关系,但这种关联是涉及到非中心成分的关联,也就是交叉关联。在识别出语义相谐关系的基础上,还要有句法上合适的方式把交叉关联表示出来,并且一起纳入句法解析的过程。


图片

语义相谐才能匹配


语义相谐在关联语法中至关重要。在关联语法的体系架构中,主要有三个模块:语义中间件、词法模块和分析器模块。其中语义中间件用于提供相谐性查询及响应,即:当有多个词可以填坑时,语义中间件可以用语义、情感等机制进一步约束从而选择合适的词语。


如果语义不相谐,即使符合语法也不能匹配。这方面关联语法有一些特殊分析机制,包括算符优先机制、强制泛化机制、借宿与重用机制和逆向筛选机制。其中逆向筛选机制是指在有一定不确定性的情况下,从相谐与不相谐的表示中选择更相谐的表示。例如“这碗猪都不喝的汤你还是倒了吧”这句话,表达的是“这碗猪”还是“这碗汤”存在伪歧义。为了甄别这类歧义,关联语法使用逆向筛选机制进行筛选:“汤”属于食物这一语义特征,可以对量词的选择起到逆向筛选的作用,也就是说,“汤”与“碗”语义相谐,而“猪”与“碗”语义不相谐。


汉语本身具有相当强的鲁棒性,但是鲁棒性的另一面是我们理解自然语言时要动用大量的脑补,逆向筛选所解决的就是脑补的问题。因此,语义标签是劳动力密集的基础建设,不是标语料,而是标资源,与词典形成配套。恒生研究院下一步会逐步完善我们的“词林”,引入类似这样的标签,既可以独立使用,也可以进行逆向筛选,可以实现提前过滤掉一些歧义或者歧途(Dead End)。这可以看成是为金融领域特制的语义资源库或者叫语义本体相信这样一种领域适配的方式是基于第一性原理的NLP打法在具体应用领域落地的应有之义


关联语法+事理图谱:NLP变身“硬科技”


关联语法无规则,由词来负载结构,方便描述处理各类交叉现象,语序灵活,鲁棒性强,结构精准。基于这些理由,笔者认为关联语法已经触碰到了语言的第一性原理,并且对英语、日语等其他语种的测试显示,关联语法同样适用。


在对接方面,关联语法可以与语义表示、语义分析进行对接,一方面对接逆向筛选,也即脑补,句法本身不能解决的问题,利用隐性标签层来解决;另一方面对接语义,可以通过隐性标签层与事件体系对接,形成精准分析的机制,理想的状态是关联语法的输出能够直接进入事件体系。


从句法到语义,目前行业的资源建设已经取得了一些成就,事件是最大的拦路虎,包括事件相关的时间、空间以及事件本身时间上的承继关系等。而事理图谱与一般知识图谱最大的区别,就在于其有些节点是事件,事件本身的角色是实体节点,而实体节点又有可能在不同的事件中相互关联,例如违规的主体同时也可能是受处罚的主体,因此关联语法与事理图谱的对接可以实现参数传递。在子事件分解方面,事件体系可能无法直接对应某个动词,例如“出国”,但是可以与“出国”的子事件“考托、推荐、护照、签证”进行对应,因此关联语法与事理图谱的对接有助于挖出上一级的祖先事件


笔者认为,事理图谱动态知识演化+关联语法深度解析精准语义服务,可以让NLP变身“硬科技”。后续,笔者也将就关联语法、事理图谱以及NLP领域的更多热点问题进行分享。

0

阅读 评论 收藏 转载 喜欢 打印举报/Report
  • 评论加载中,请稍候...
发评论

    发评论

    以上网友发言只代表其个人观点,不代表新浪网的观点或立场。

      

    新浪BLOG意见反馈留言板 电话:4000520066 提示音后按1键(按当地市话标准计费) 欢迎批评指正

    新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

    新浪公司 版权所有