加载中…
个人资料
冯志伟文化博客
冯志伟文化博客
  • 博客等级:
  • 博客积分:0
  • 博客访问:727,344
  • 关注人气:1,291
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
相关博文
推荐博文
谁看过这篇博文
加载中…
正文 字体大小:

词向量及其在自然语言处理中的应用(六)冯志伟

(2021-02-02 21:14:43)
标签:

冯志伟

人工智能

术语学

语言学

自然语言处理

词向量及其在自然语言处理中的应用(六)

冯志伟


    点互信息

 

         4中的单词-上下文共现矩阵,使用矩阵行中的单元来表示两个单词的简单的共现频率。 然而,事实证明,简单的频率并不是单词之间关联关系的最好的度量。问题在于,行的频率偏差较大,区分度不很高。如果我们想知道什么类型的上下文是单词apricot pineapple共享的,而不是digitalinformation共享的,仅仅根据诸如the, it, 或者they这样的单词,是不可能得到很好的区分度的,因为这些单词经常出现在各种类型单词的前后,而且对于任何一种特定类型的单词都没有区分度。

         我们不采用这样的方法,而更乐意使用那些对于目标单词具有特定区分度的上下文单词。单词之间关联性的最好的权重或度量将告诉我们两个单词的共现的频繁程度,而不仅仅是它们是否共现。

         点互信息(Pointwise Mutual InformationPMI)正是这样的度量方法。点互信息是ChurchHanks在互信息概念的基础上提出来的(Church et al., 1989)。

         两个随机变量XY的互信息(mutual informationI(X, Y):

                              

         点互信息(pointwise mutual information)是两个事件xy是否经常出现的度量,如果它们是彼此独立的,I(x, y)可按如下公式计算:

                                             

         因此,我们把目标单词w和它的上下文单词c之间的点互信息PMI(w,c)表示如下

                                        

         点互信息PMI公式中的分子p(w, c)表示我们观察到的两个单词共同出现的频繁程度。分母p(w)p(c)表示在两个单词彼此独立出现的情况下,我们期望这两个单词共同出现的频繁程度,所以,要把这两个单词的概率相乘。因此,其比值PMI(w, c)就可以估计出目标词和特征共同出现的频繁程度。

         PMI的范围可以从负到正无限地进行取值。不过,负值的PMI意味着事物的共现比我们随便地估计的更加不频繁,除非我们的语料库非常大,否则,将会导致计算结果不可靠。为了凸显出单独出现的概率分别为10-6的两个单词是否比我们随便的估计共同出现得更加经常,我们就需要这两个单词共同出现的有意义的区分度的概率不小于10-12,这样的颗粒度要求语料库的规模非常之大,由于这样的原因,我们更为通常地使用“正值点互信息”(positive pointwise mutual informationPPMI来计算,用零来代替所有的负值的PMIDagan et al.,  1993)。

                                                                                                                                                                  

                                             

         更加形式地说,假定我们有一个单词-上下文共现矩阵F,这个矩阵有W行(单词)和C列(上下文),fij表示在上下文cj中单词wi出现的次数。这可以转换为PPMI矩阵,其中PPMIij给出在上下文cj中单词wiPPMI的值如下:

 这样一来,我们就可以举例来计算PPMI (w=information, c=data)了。根据图4,我们可以计算出的相关数据如下:           

                所以得出:

                 P(w = information, c = data) = 6/19 = 0.316

                                     P(w = information) = 11/19 = 0.576

                                    P(c = data) = 7/19 =0.368

            PPMI(information, data) = log2(0.316/(0.368*0.579)) = log2 1.48306676 = 0.568

由此可知,单词information与上下文中的单词data之间的点互信息为0.568,它们之间的关联度是比较高的。这样的计算结果与我们的语言直觉是一致的。

             

0

阅读 评论 收藏 转载 喜欢 打印举报/Report
  • 评论加载中,请稍候...
发评论

    发评论

    以上网友发言只代表其个人观点,不代表新浪网的观点或立场。

      

    新浪BLOG意见反馈留言板 电话:4000520066 提示音后按1键(按当地市话标准计费) 欢迎批评指正

    新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

    新浪公司 版权所有