二项分布,几何分布,帕斯卡分布,超几何分布,泊松分布之关系
(2012-04-16 14:02:31)
标签:
杂谈 |
分类: 统计方法 |
二项分布,几何分布和帕斯卡分布都是基于独立的伯努利试验。
二项分布:描述在给定的n次试验中成功x次的概率
几何分布:描述第一次成功发生在第x次的概率
帕斯卡分布:负二项分布的正整数形式,描述第n次成功发生在第x次的概率,因此几何分布是n=1的帕斯卡分布特例。
超几何分布:描述的是总体有限的无放回抽样问题。总体有N个个体,其中具有某一特点的个体有M个,如果从中抽取n个,其中带有这一特点的样本为x个的概率。超几何分布中我们常常希望推断的是N(已知M)或者M(已知N)。例如要知道河里有多少鱼,可以打捞M条做标记,过段时间认为这些做了标记的鱼都均匀分散在水中以后,再打捞n条,其中具有带有标记的鱼为m条,推断鱼的总数N。
超几何分布 V.S. 二项分布:
两者都是抽样,只不过超几何分布是无放回抽样,二项分布是有放回抽样。当超几何分布中N很大,而n很小时,无放回抽样可以近似得看成有放回抽样,也就是超几何分布可以用二项分布近似。
泊松分布 V.S. 二项分布:
泊松分布可以用来近似二项分布,当二项分布中,n很大,而p很小,np又是一个大小合适的数时,可以用Poisson(np)来近似二项分布。binomial(x;n,p)=poisson(x,np)
例如,一个城市有10万人,在一个小时之内,每个人来到某个车站的概率均为0.001,那么在一个小时之内,这个车站会有多少人到来呢?这是一个二项分布,n=10万,p=0.001,显然期望等于np=100人。如果让求在一个小时之内有150人到来的概率,当然可以用二项分布,但里面的组合数不好计算,这时就可以用泊松分布近似:认为在一个小时内,这个车站到来的人数服从lambda=np=100的泊松分布。也就是说泊松分布常常用来描述总体很大,对于总体中每个个体来说事件发生的概率很小(但总体中发生事件的概率=np,就不是一个小数字),在一段时间内总体中发生事件的次数为x的概率。显然发生的次数与时间的长度以及lambda=np有关。
若x服从Poisson 分布,那么x应当满足泊松过程的三个条件:平稳性,独立性和普通性。(概率论基础,复旦大学,李贤平,第99页)
所谓平稳性就是在一段时间内发生的次数与计时的起点无关,只与时间的长度有关;
所谓独立性就是互不相交的时间区间内过程进行的互相独立性;
所谓普通性就是同一时间不可能有两个或两个以上的事件发生。
显然,这三点在现实中可能是不满足的。例如一段时间内到来的呼叫次数,完全有可能出现两个呼叫同时发生的情况(占线),也有可能不平稳,例如白天的呼叫次数多于夜间。
几何分布具有无记忆性,这是由于每次试验都是独立的试验,不受之前试验结果的影响。

加载中…