加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

语言数学规律的早期描述-- 齐普夫定律

(2011-03-10 18:38:37)
标签:

zipf定律

序号

频率

分布

http://s15/middle/72d083c7g9e1e8414602e&690齐普夫定律" TITLE="语言数学规律的早期描述-- 齐普夫定律" />

 

                                       G. K. Zipf

          语言数学规律的早期描述-- 齐普夫定律

                                   冯志伟

 

1935年,齐普夫(George Kingsley Zipf,1902-1950)有关语言统计的著作出版[1],这标志着一个新的语言学分支学科和一种新的研究方法的诞生。在这本书的前言中,齐普夫认为利用统计方法可以定量研究语言中的各种现象,这样语言学也可成为一门精确科学。这本书的标题“The Psyco-Biology of Language”(语言的心理生物学)表达了结合人类的经验和功能来研究语言的意愿,书的副标题“An Introduction to Dynamic Philiology”(动态语文学)则强调了这种方法和其它方法的主要区别在于研究采用的是真实的语言样本,语言应用的变化也会导致理论研究结论的变化,因此这是一种动态的语言学研究方法。70多年来,齐普夫所倡导的方法在语言学和其它领域都得到了广泛的应用。齐普夫所说的“动态语文学”就是今天的“计量语言学”(Quantitative Linguistics)。齐普夫是计量语言学公认的奠基人之一,因此也有学者将计量语言学称之为“齐普夫语言学”(Zipf Linguistics)。

 

1902年1月7日,齐普夫George Kingsley Zipf)出生在美国伊利诺伊州Freeport市的一个德裔家庭。1924年,齐普夫以优异的成绩从哈佛大学毕业。大学毕业后,他去德国柏林大学和波恩大学求学三年。在此期间,他开始有了把语言作为一种自然现象进行研究的想法。返回美国后,他于1929年在哈佛大学获得比较语文学博士学位,博士论文为《相对频率作为语音变化的决定因素》(Relative Frequency as a Determinant of Phonetic Change)。1930年,开始在哈佛大学任教,从事德语教学工作。1950年因病去世,时年48岁。Zipf 的代表性著作是《语言的心理生物学》(The psycho-biology of language. An introduction to dynamic philology, 1935)和《人类行为及最小用力原则》(Human behavior and the principle of least effort, 1949)。除此之外,他还发表过40多篇文章,内容大多和语言的计量研究有关。齐普夫在这些著作当中提出了许多创新的想法,如:自组织的概念,语言经济性原则以及语言定律的基本特征等。他的“最小用力原则”(principle of least effort)和“统一化力量与多样化力量”(forces of unification and diversification)的原理,直到今天对我们仍然是很有启发性的。

在计量语言学中最早提出的统计规律之一是齐普夫定律(Zipf’s law),这个定律是因齐普夫而得名的,而齐普夫也因这个定律而广为人知。下面是对这个定律的简单描述。

假设我们研究包含N个词的文章(N应该充分地大),按这些词在文章中出现频率递减的顺序,把它们排列起来,并且顺次从1(频率最大的词)到L(频率最小的词)编上号码,造出这篇文章的词表。词的频率用Pr表示,词的号码用r表示,r可以取区间1≤f≤L内的全部自然数值。词表的形式如下:

                                           词表

 

词的序号(r)

词的频率(Pr)

1

P1

2

P2

R

Pr

L

PL

 

从这个词表中可以看出,随着词在词表中编号数目r的增大,相应的词在文章中出现的频率Pr逐渐减小,r由1增大到L,Pr就由P1减小到PL。齐普夫通过实验发现,Pr与r之间有下列关系:

                       http://s4/middle/72d083c7g9e1eb3f4af53&690齐普夫定律" TITLE="语言数学规律的早期描述-- 齐普夫定律" />  

其中,r表示词在词表中的序号,Pr表示序号为r的词的频率,K和γ都是常数,齐普夫由实验测出,γ≈1,K≈0.1。这就是齐普夫定律。它说明,在按频率递减顺序排列的频率词典中,词的序号越大,则词的频率越小,序号与频率之间存在着如公式所示的数量关系。

例如,如果词的序号r=50,那么,根据公式得出:

                         http://s4/middle/72d083c7g9e1e92ea7643&690齐普夫定律" TITLE="语言数学规律的早期描述-- 齐普夫定律" />

 

后来,经过学者们的多次修正,这个定律有了更为精确的形式。

艾思杜(J.Estoup)、贡东(E. Condon)、朱斯(M.Joos)、曼德尔布洛特(B.Mandelbrot)以及齐普夫本人,先后对上述定律进行过研究,因而又称齐普夫定律为齐普夫—朱斯—曼德尔布洛特定律(Zipf-Joos-Mandelbrot law)[2]

由齐普夫定律可知,如果词表包含数十万个词,那么,其中头1000个最常用的词占该语言的各种文章中全部出现的词的80%,因为:

http://s10/middle/72d083c7g9e1e95a4cc99&690齐普夫定律" TITLE="语言数学规律的早期描述-- 齐普夫定律" /> 

公式中。Σ是求和符号,读作Sigma。表示顺次用1、2、3…,1000来代替Pr中的r,再把这1000个数连加起来。

这说明,只要掌握一种语言中的1000个最常用词,就有可能读懂该语言文章的80%。这个事实对于语言教学以及自然语言信息处理都是十分重要的。

上述齐普夫定律中的γ≈1,这个值是齐普夫根据英语的文本得到。

齐普夫之后,许多学者对不同语言的文本进行了实测,结果表明γ值会随语言的不同而发生微小的变化。最新研究表明,这种微小的差异也许可以作为语言分类的一种指标。有学者对21种语言的欧洲联盟宪章进行了词频统计分析,并按照γ的不同,做出下图[3]

http://s1/middle/72d083c7g9e1e98fb03e0&690齐普夫定律" TITLE="语言数学规律的早期描述-- 齐普夫定律" />

 

21种语言的齐普夫γ分布

 

这21种语言依次(从左到右)是:芬兰语,爱沙尼亚语,匈牙利语,立陶宛语,拉脱维亚语,斯洛伐克语,捷克语,波兰语,斯洛文尼亚语,马耳他语,世界语,希腊语,丹麦语,瑞典语,德语,意大利语,葡萄牙语,西班牙语,法语,荷兰语和英语。上图表明,齐普夫定律中的某些参数是有可能作为一种语言分类指标的,但能这样做的深层次原因,仍有待于进一步研究。

 

 


 

[1] Zipf , G. K. (1935) The Psycho-biology of Language: An Introduction to Dynamic Philology. Boston: Houghton Mifflin Co.

[2] 详见冯志伟《数理语言学》,151-157页,知识出版社,1985年8月,上海。

[3] Bujdosó Iván, Parencaj lingvoj, La Ondo de Esperanto. 2008: 4 (162): 14-15.

[4] 见M. Hanley《詹姆斯·裘易士的“尤利西斯”词汇索引》(Word index to James Joyce’s Ulysses)。

[5] 冯志伟,齐普夫定律的来龙去脉,情报科学,1983年,第2期

 

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有