加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

齐夫定律

(2014-04-17 10:48:29)
分类: 软件开发
http://zh.wikipedia.org/wiki/齊夫定律

齐夫定律(英语Zipf's lawIPA/ˈzɪf/)是由哈佛大学语言学家乔治·金斯利·齐夫(George Kingsley Zipf)于1949年发表的实验定律。它可以表述为:在自然语言语料库里,一个单词出现的频率与它在频率表里的排名成反比。所以,频率最高的单词出现的频率大约是出现频率第二位的单词的2倍,而出现频率第二位的单词则是出现频率第四位的单词的2倍。这个定律被作为任何与幂定律概率分布有关的事物的参考。

 

 

例子[编辑]

最简单的齐夫定律的例子是“1/f function”。给出一组齐夫分布的频率,按照从最常见到非常见排列,第二常见的频率是最常见频率的出现次数的½,第三常见的频率是最常见的频率的1/3,第n常见的频率是最常见频率出现次数的1/n。然而,这并不精确,因为所有的项必须出现一个整数次数,一个单词不可能出现2.5次。

在 Brown 语料库中,“the”、“of”、“and”是出现频率最前的三个单词,其出现的频数分别为69971次、36411次、28852次,大约占整个语料库100万个单词中的7%、3.6%、2.9%,其比例约为6:3:2。大约占整个语料库的7%(100万单词中出现69971次)。满足齐夫定律中的描述。仅仅前135个字汇就占了Brown 语料库的一半。

齐夫定律是一个实验定律,而非理论定律,可以在很多非语言学排名中被观察到,例如不同国家中城市的数量、公司的规模、收入排名等。但它的起因是一个争论的焦点。齐夫定律很容易用点阵图观察,坐标分别为排名和频率的自然对数(log)。比如,“the”用上述表述可以描述为x = log(1), y = log(69971)的点。如果所有的点接近一条直线,那么它就遵循齐夫定律。

参见[编辑]

延伸阅读[编辑]

主要:

次要:

外部链接[编辑]

http://upload.wikimedia.org/wikipedia/commons/thumb/4/4a/Commons-logo.svg/30px-Commons-logo.svg.png 维基共享资源中相关的多媒体资源:齐夫定律
[隐藏]
离散概率分布
单随机变量
多随机变量
连续概率分布
单随机变量
均匀 · 正态 · 指数 · Β(贝塔) · Β'(第二类) · 柯西 · χ²(卡方) · δ(德尔塔) · 爱尔朗(Erlang) · 广义误差 · F · 衰落 · Fisher的z · Fisher-Tippett ·Γ(伽玛) · 广义极值 · 广义双曲  · 半逻辑 · Hotelling的T平方 · 双曲正割 · 超指数 · 逆χ² · 逆高斯 · 广义逆高斯 · 逆γ · Kumaraswamy · Landau ·拉普拉斯 · 列维 · 稳定 · 逻辑 · 对数正态麦克斯韦-玻尔兹曼麦克斯韦速率分布律 · 玻色-爱因斯坦 · 费米-狄拉克 · Pareto · Pearson · 极角 ·余弦平方 · 瑞利 · 相对论的Breit-Wigner · 莱斯 · t(学生氏) · 三角 · 第一类Gumbel第二类Gumbel · Voigt · von Mises · 韦氏 · Wigner半圆形
多随机变量
其它分布

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有