词向量及其在自然语言处理中的应用(3)

标签:
冯志伟人工智能术语学语言学自然语言处理 |
词向量及其在自然语言处理中的应用(3)
冯志伟
词向量的另一个重要的语言学根据是“分布”。
“分布”是美国描写语言学中一个有专门含义的术语。
1934年,M.Swadesh在他写的《音素原理》(The phonemic principle)这篇论文里,第一次把“分布”作为一个专门的术语来使用。他认为,这个术语的用法同“地理分布”的习惯用法是一样的。他说:“如果两个相似类型的语音之中,只有一个通常出现在某些语音环境里,并且只有另一个通常出现在某些其他语言环境里,那么这两个类型可能是同一音素的从属类型。……例如英语speech这个词中的p,是跟浊唇塞音b以及peak、keep、happen这些词中的清唇塞音p有互补分布关系的,但是因为语音上与后者相似,所以p的分布属于后一类,而不属于前一类”(Swadesh, 1934)。
1951年,Z. Harris在《结构语言学方法》一书中,给分布下的定义是:“一个单位的分布就是它所出现的全部环境的总和,也就是这个单位的所有的(不同的)位置(或者出现的场合)的总和,这个单位出现的这些位置是同其他单位的出现有关系的”(Harris, 1951)。
根据这样的定义,可把分布相同的语言单位归类。例如,Z. Harris就曾把希伯来语中的某些语素用分布分析法加以归类。在希伯来语中有如下片段:
xašavtikax
xašavtakax
xašavnukax
xašavtemkax
xašavukax
xašavakax
xašavkax
其中的-ti-、-ta-、-nu-、-tem-、-u-、-a-和零形式ø都同样出现在xašav-kax这同样的环境中,它们的分布相同,因此,Harris把它们归为一类,也就是“代词”这一类(Harris, 1951)。
Hocket用分布分析法,把一组可以在构造更大的形式中具有类似的出现权利的形式归为一类,称为“形式类”(form-class)。例如,能够同样出现在can(能)、can go(能去)、can go there(能去那儿)之前的she(她)、he(他)、it(它)、I(我)、we(我们)、they(他们)、the men across the street(走过街道的人)归为一个形式类。
可见,这样的“分布分析法”,是一种以寻找同类环境为原则的归类法。
分布定义中的所谓“位置”,也包括周围的环境。正如Bloch和Trager所说的:“位置的相同不仅意味着对形式的头尾(开头、中间、末尾)来说的地位上的相同,而且还意味着由前面接的音和后面跟的音、音渡条件以及重音所决定的环境上的相同”(Bloch et al., 1942)
Harris也给分布的“环境”下了定义:“话语里的某个单位的环境或者位置是由它邻近的单位组成的……所谓‘邻近’是指处于上述那个单位之前或之后,或者同时出现的单位的位置”(Harris, 1951)。
可见,分布分析法是美国描写语言学的最重要、是关键的方法。Harris甚至把分布分析法绝对化,认为它是描写语言学的惟一的方法。他在《结构语言学》一书中说:“描写语言学主要研究的以及本书认为适用于语言结构的惟一的形式之间的关系,是彼此有关的某些部分或者特征在语流中的分布或者配列”(Harris, 1963)。因此,有人干脆把美国描写语言学家称为“分布主义者”(distributionist)。