加载中…
个人资料
冯志伟文化博客
冯志伟文化博客
  • 博客等级:
  • 博客积分:0
  • 博客访问:721,702
  • 关注人气:1,291
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
相关博文
推荐博文
谁看过这篇博文
加载中…
正文 字体大小:

词向量及其在自然语言处理中的应用(3)

(2021-01-16 17:31:08)
标签:

冯志伟

人工智能

术语学

语言学

自然语言处理

词向量及其在自然语言处理中的应用(3)

冯志伟

词向量及其在自然语言处理中的应用(3)


词向量的另一个重要的语言学根据是“分布”。

“分布”是美国描写语言学中一个有专门含义的术语。

1934年,MSwadesh在他写的《音素原理》(The phonemic principle)这篇论文里,第一次把“分布”作为一个专门的术语来使用。他认为,这个术语的用法同“地理分布”的习惯用法是一样的。他说:“如果两个相似类型的语音之中,只有一个通常出现在某些语音环境里,并且只有另一个通常出现在某些其他语言环境里,那么这两个类型可能是同一音素的从属类型。……例如英语speech这个词中的p,是跟浊唇塞音b以及peakkeephappen这些词中的清唇塞音p有互补分布关系的,但是因为语音上与后者相似,所以p的分布属于后一类,而不属于前一类”(Swadesh, 1934)。

 可见,如果两个现象在不同的环境中出现的可能性正好相互对立,那么,它们就可分布在对立的环境中而互相补充成同一个单位。

         1950年,M. Joos指出:一个语素的语言学意义…可以定义为该语素与上下文中的所有其他的语素出现的条件概率的集合Joos, 1950)。这意味着,可以根据语素与上下文中的所有其他的语素分布的条件概率来判定语素的意义。

1951年,Z. Harris在《结构语言学方法》一书中,给分布下的定义是:“一个单位的分布就是它所出现的全部环境的总和,也就是这个单位的所有的(不同的)位置(或者出现的场合)的总和,这个单位出现的这些位置是同其他单位的出现有关系的”(Harris, 1951)。

根据这样的定义,可把分布相同的语言单位归类。例如,Z. Harris就曾把希伯来语中的某些语素用分布分析法加以归类。在希伯来语中有如下片段:

xašavtikax               (我这样想过  

xašavtakax               (你这样想过)

xašavnukax              (我们这样想过)

xašavtemkax             (你们这样想过)

xašavukax               (他们这样想过)

xašavakax               (她这样想过)

xašavkax                (他这样想过)

其中的-ti--ta--nu--tem--u--a-和零形式ø都同样出现在xašav-kax这同样的环境中,它们的分布相同,因此,Harris把它们归为一类,也就是“代词”这一类(Harris, 1951)。

Hocket用分布分析法,把一组可以在构造更大的形式中具有类似的出现权利的形式归为一类,称为“形式类”(form-class)。例如,能够同样出现在can(能)、can go(能去)、can go there(能去那儿)之前的she(她)、he(他)、it(它)、I(我)、we(我们)、they(他们)、the men across the street(走过街道的人)归为一个形式类。

可见,这样的“分布分析法”,是一种以寻找同类环境为原则的归类法。

分布定义中的所谓“位置”,也包括周围的环境。正如BlochTrager所说的:“位置的相同不仅意味着对形式的头尾(开头、中间、末尾)来说的地位上的相同,而且还意味着由前面接的音和后面跟的音、音渡条件以及重音所决定的环境上的相同”(Bloch et al., 1942

Harris也给分布的“环境”下了定义:“话语里的某个单位的环境或者位置是由它邻近的单位组成的……所谓‘邻近’是指处于上述那个单位之前或之后,或者同时出现的单位的位置”(Harris, 1951)。

可见,分布分析法是美国描写语言学的最重要、是关键的方法。Harris甚至把分布分析法绝对化,认为它是描写语言学的惟一的方法。他在《结构语言学》一书中说:“描写语言学主要研究的以及本书认为适用于语言结构的惟一的形式之间的关系,是彼此有关的某些部分或者特征在语流中的分布或者配列”(Harris, 1963)。因此,有人干脆把美国描写语言学家称为“分布主义者”(distributionist)。

         1954年,Harris 指出,“Oculisteye-doctor … 出现在几乎相同的环境中”,因此,他更概括地说,“如果AB具有几乎相同的环境 我们就说它们是同义词” Harris, 1954),具有相似上下文的单词倾向于具有相似的词义。

         1957年,J. R. Firth更加明确地指出,“观词伴而知词义!”(Firth, 1957[1]。这句话成为J. R. Firth的名言而广为传播。

         1975年,Nida指出,单词的含义与该单词周围分布的环境有关(Nida, 1975)。假定我们从来没有看到过tesgüino这个单词,但是根据下面四个句子:

 

    A bottle of tesgüino is on the table.

    Everybody likes tesgüino.

         Tesgüino makes you drunk.

    We make tesgüino out of corn.

 

 我们可以想到tesgüino这个单词的意义是一种发酵的、含酒精的饮料,它像啤酒一样,是由谷物酿造而成的。我们只要计算一下在tesgüino的上下文中的单词,看一看如bottledrunk这样的单词,我们就能自然而然地得到这样的直觉。事实上,这些单词以及其他类似的上下文也会出现在beer, liquor或者tequila的周围,这可以帮助我们认识到这些单词与tesgüino之间的相似性。我们甚至也可以进一步观察更加细致的上下文特征和句法特征,例如,tesgüino “出现在drunk之前”,“出现在bottle之后”,“是likes的直接宾语”等,来判定tesgüino的句法语义特性。

         值得注意的是,在心理学中也有与语言学中的“分布”相关的思想。1957年,Osgood 等提出,一个单词的意义可以使用欧几里得空间中的一个点来建模,而两个单词之间的意义的相似性可以使用欧几里得空间里这些点之间的距离来建模(Osgood, et al 1957)。

         由此可见,我们可以根据某个单词周围的其他单词的分布来表示这个单词的意义。分布的概念是自然语言处理中“词向量”概念的另外一个重要的语言学根据。



[1] 这句话的英文原文是:You shall know a word by the company it keeps!

0

阅读 评论 收藏 转载 喜欢 打印举报/Report
  • 评论加载中,请稍候...
发评论

    发评论

    以上网友发言只代表其个人观点,不代表新浪网的观点或立场。

      

    新浪BLOG意见反馈留言板 电话:4000520066 提示音后按1键(按当地市话标准计费) 欢迎批评指正

    新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

    新浪公司 版权所有