所谓分布分析,就是假定有了一个初始的词类标记体系,按标记体系和实际语料对应生成一个CFG规则体系,相应地再生成一个语法功能分布矩阵。在实例化的时候如果有分歧,就把原有词类中的具体词按分歧中表现出来的“站队”情况细分。
我们拿出四个词来进行考察:“老师”“房子”“木头”“傻瓜”。他们都是“名词”,为简单起见都写成NP。
考察的语法功能点就两个,名词做谓语和名词做定语。
忽略其他分布,我们得到一个原始大矩阵的一个4*2的简化矩阵,也就是一个分布表。
名词做谓语
名词做定语
=================================================================
老师 否
“被”定语(如“老师宿舍”)
房子
否
“被”定语(如“房子专家”)
木头 隐喻(如“这个人真木头”)
是
傻瓜
是 是
=================================================================
我们看到,至少在这个局部,“老师”和“房子”的“站队”情况是一致的,所以有理由把它们分到一个小类。如果把隐喻看成是正常能说的话,那么“木头”和“傻瓜”的站队情况也是一致的,可以分到一个小类。这个就是我们在分布分析当中日常所做的工作。
但是这个表里面有个事情值得注意,就是这个“被”定语。
并不是“老师”这个词本身有什么语义上的特点可以无条件地做定语,而是当中心词有什么语义特点的时候,“老师”才被动地做了定语。“宿舍”隐含了“住”,“住”的是“人”,“老师”是“人”的一种。
同样“房子”这个词也没有什么语义上的特点可以无条件地做定语。“专家”隐含了“某方面有专长”。“房子”可以作为“一个方面”(盖房子,买房子,卖房子,拆房子等)的对象。
所以,同样形式的名词-名词结合,同样被叫做定中结构,“木头房子”和“房子专家”引发的语义理解(意合)过程是不一样的,参与对应语法功能的普适性也是不一样的——“老师宿舍”推广到“老师xx”的范围很窄,而“木头房子”推广到“木头xx”的范围就相对很宽!语法上的差异和语义上的差异有没有内在的关联性,我现在不敢下断言。但是,如果不看范围的宽窄,逮住就算的分布分析,怕是不懂得“做定语”和“被定语”的差别的。
加载中,请稍候......