所指、同指和复指_冯志伟文化博客

http://blog.sina.com.cn/u/1926267847

首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

所指、同指和复指

(2011-04-07 15:49:32)

标签：

所指

同指

复制

话语模型

冯志伟

所指、同指和复指

冯志伟

博主曾经介绍过Chomsky的管辖和约束理论，讨论了代词的指代问题，Chomsky只是从语言学理论的角度来讨论这些问题，在自然语言处理中，我们还应当对具体问题进行具体的分析，采用一些技术手段来处理这些问题。白硕老师在他的微博中提出了3条判别原则，博主打算进一步来讨论这些问题，对于白硕老师的意见做些补充。今天，先讨论所指、同指和复指。

我们在自然语言处理研究中讨论的大部分问题都是出现于单词和句子层面的语言现象，很少涉及句子与句子之间的关系。但是在实际上，通常语言并不是由孤立无关的句子组成的，而是由搭配在一起的相关句子群组成的。我们将这种句子群称为话语（discourse）。

话语层引起的现象在语言中是非常普遍的，所以，在自然语言处理中，我们也有必要研究这样的问题。下面是机器翻译中需要使用话语分析才能处理的一些实例：

a. I saw the soldiers aim at the women, and I saw several of them fall.

b. The council refused the women a permit because they advocated violence.

c. Sue wants to put the key under the doormat. When she lifted it up, a cockroach quickly scampered across the path.

在例a中，them究竟是指soldiers（士兵们）还是指women（妇女们），在翻译为汉语时，如果是指soldiers，则应该翻译为“他们”，这样，例a就应该翻译为“我看到士兵们瞄准了妇女，并看到他们之中的一些人倒下去了”；如果是指women，则应该翻译成“她们”，这样，例a就应该翻译为“我看到士兵们瞄准了妇女，并看到她们之中的一些人倒下去了”。要是英语的分析中没有做所指判定，将无法进行翻译。

在例b中，they究竟是指council（理事会班子），还是指women（妇女们），在翻译为汉语时，如果是指council，则应该翻译为“他们”，这样，例b就应该翻译成“理事会拒绝了妇女们的请求，因为他们主张暴力”；如果是指women，则应该翻译为“她们”，这样，例b就应该翻译为“理事会拒绝了妇女们的请求，因为她们主张暴力”。要是英语的分析中没有做所指判定，也无法进行翻译。

在例c中，it究竟是指key（钥匙），还是指doormat（门前的擦鞋垫），在机器翻译时，也有必要判定清楚，如果模模糊糊地翻译为“它”，把后面的句子翻译为“当她拿起它时，一个蟑螂很快地穿过小路跑过去了”，“它”究竟是什么，句子的意思是很难理解的。

可见，在机器翻译中，我们有必要研究所指判定的问题，也就是“所指语”（referring expression）的解释问题。

我们再来看下面一段指代关系比较复杂的话语。

John went to Bill’s car dealership to check out a Benz. He looked at it for about an hour.

(John 去Bill的汽车经销店去挑选一辆奔驰汽车。他看了它大约一个小时。)

在这段话语中，代词he和it代表的分别是什么？读者无疑很容易地领会到he代表John而不是Bill，it代表Benz汽车而不是Bill’s car dealership。但是，如果我们要让计算机处理这样的问题，那就相当困难，我们也必须研究“所指语”的解释问题。

所指（reference）是说话人使用类似于上面话语中的John和he这样的表达来指示名字为John的人的过程。

用于实现所指的自然语言表达被称为所指语（referring expression），它指向的实体被称为所指对象（referent）。因此，在上面的话语中John和he是所指语，而John是它们的所指对象。（为了区分所指语和它们的所指对象，我们用斜体表示所指语）。作为一种方便的简化表达，我们有时说某个所指语指向某个对象，例如，我们可以说he指向John。虽然如此，但是读者应该牢记真正的含义是：说话人进行了这样一个动作，即说出he用于表示John。两个所指语用于指向同样的实体被称为同指（corefer），因此上面话语中John和he是同指关系。

所指语的另一个术语是先行词（antecedent），它是处于所指语前面的并且容许进行相应所指的词，例如在提及John以后的表达中就容许用He来表示John，我们称John为he的先行词。提及一个先前已经被引入话语的实体被称为复指（anaphora），使用的所指语被称为复指语（anaphoric）。因此上面话语中代词he和it是复指语。

自然语言给说话人提供了各式各样的指向实体的方式。假如你的朋友有一辆Benz汽车，你想提及它。依赖于话语上下文（discourse context），在许许多多的可能中你可以选择it、this、that、this car、that car、the car、the Benz或my friend’s car等。然而，无论在哪一个上下文中你都不可能在所有这些选项中自由地进行选择。如果听话人预先对你朋友的汽车没有任何了解，如果这辆汽车从未被提及，如果这辆汽车并不紧邻话语的参与者（也就是，话语的情境上下文[situational context]），那么，你就不能简单地说it或the Benz。

出现这种情形的原因在于所指语的每个类型都暗含着关于位置的不同的信息，这种位置是指说话人认为所提及的对象在听话人的各种看法中所占据的位置。这些具有特殊地位的看法的总体形成了听话人对正在进行的话语的心理模型，我们称之为话语模型（discourse model）。话语模型包括话语所指实体的表示以及它们所承担的关系。

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report

前一篇：Chomsky最简方案的基本观点

后一篇：指代判定中约束的种类

新浪BLOG意见反馈留言板　欢迎批评指正