加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

概率论,二项分布和Poisson分布

(2007-11-29 15:09:39)
分类: 审计
     概率是随机事件发生的可能性的数量指标。在独立随机事件中,如果某一事件在全部事件中出现的频率,在更大的范围内比较明显的稳定在某一固定常数附近。就可以认为这个事件发生的概率为这个常数。对于任何事件的概率值一定介于 0和 1之间。

    有一类随机事件,它具有两个特点:第一,只有有限个可能的结果;第二,各个结果发生的可能性相同。具有这两个特点的随机现象叫做“古典概型”。

    在客观世界中,存在大量的随机现象,随机现象产生的结果构成了随机事件。如果用变量来描述随机现象的各个结果,就叫做随机变量。

    随机变量有有限和无限的区分,一般又根据变量的取值情况分成离散型随机变量和非离散型随机变量。一切可能的取值能够按一定次序一一列举,这样的随机变量叫做离散型随机变量;如果可能的取值充满了一个区间,无法按次序一一列举,这种随机变量就叫做非离散型随机变量。http://www.ikepu.com/maths/maths_branch/probability_03.JPG

    在离散型随机变量的概率分布中,比较简单而应用广泛的是二项式分布。如果随机变量是连续的,都有一个分布曲线,实践和理论都证明:有一种特殊而常用的分布,它的分布曲线是有规律的,这就是正态分布。正态分布曲线取决于这个随机变量的一些表征数,其中最重要的是平均值和差异度。平均值也叫数学期望,差异度也就是标准方差。

数理统计的内容

    数理统计包括抽样、适线问题、假设检验、方差分析、相关分析等内容。抽样检验是要通过对子样的调查,来推断总体的情况。究竟抽样多少,这是十分重要的问题,因此,在抽样检查中就产生了“小样理论”,这是在子样很小的情况下,进行分析判断的理论。

    适线问题也叫曲线拟和。有些问题需要根据积累的经验数据来求出理论分布曲线,从而使整个问题得到了解。但根据什么原则求理论曲线?如何比较同一问题中求出的几种不同曲线?选配好曲线,有如何判断它们的误差?……就属于数理统计中的适线问题的讨论范围。

    假设检验是只在用数理统计方法检验产品的时候,先作出假设,在根据抽样的结果在一定可靠程度上对原假设做出判断。

    方差分析也叫做离差分析,就是用方差的概念去分析由少数试验就可以做出的判断。

    由于随机现象在人类的实际活动中大量存在,概率统计随着现代工农业、近代科技的发展而不断发展,因而形成了许多重要分支。如:随机过程、信息论、极限理论、试验设计、多元分析等。

 
 
    二项分布和Poisson分布均是常见的离散型分布,在分类资料的统计推断中有非常广泛的应用。
一、二项分布的概念及应用条件
1. 二项分布的概念:
如某实验中小白鼠染毒后死亡概率P为0.8,则生存概率为=1-P=0.2,故
对一只小白鼠进行实验的结果为:死(概率为P)或生(概率为1-P)
对二只小白鼠(甲乙)进行实验的结果为:甲乙均死(概率为P2)、甲死乙生[概率为P(1-P)]、乙死甲生[概率为(1-P)P]或甲乙均生[概率为(1-P)2],概率相加得P2+P(1-P)+(1-P)P+(1-P)2=[P+(1-P)]2
依此类推,对n只小白鼠进行实验,所有可能结果的概率相加得Pn+cn1P(1-P)n-1+...+cnxPx(1-P)n-x+...+(1-P)x=[P+(1-P)]n 其中n为样本含量,即事件发生总数,x为某事件出现次数,cnxPx(1-P)n-x为二项式通式,cnx=n!/x!(n-x)!, P为总体率。
因此,二项分布是说明结果只有两种情况的n次实验中发生某种结果为x次的概率分布。其概率密度为:
P(x)=cnxPx(1-P)n-x, x=0,1,...n。
2. 二项分布的应用条件:
医学领域有许多二分类记数资料都符合二项分布(传染病和遗传病除外),但应用时仍应注意考察是否满足以下应用条件:(1) 每次实验只有两类对立的结果;(2) n次事件相互独立;(3) 每次实验某类结果的发生的概率是一个常数。
3. 二项分布的累计概率
二项分布下最多发生k例阳性的概率为发生0例阳性、1例阳性、...、直至k例阳性的概率之和。至少发生k例阳性的概率为发生k例阳性、k+1例阳性、...、直至n例阳性的概率之和。
4. 二项分布的图形
二项分布的图形有如下特征:(1)二项分布图形的形状取决于P 和n 的大小;(2) 当P=0.5时,无论n的大小,均为对称分布;(3) 当P<>0.5 ,n较小时为偏态分布,n较大时逼近正态分布。
5. 二项分布的均数和标准差
二项分布的均数µ=np,当用率表示时µ=p
二项分布的标准差为np(1-p)的算术平方根,当用率表示时为p(1-p)的算术平方根。
二、二项分布的应用
二项分布主要用于符合二项分布分类资料的率的区间估计和假设检验。当P=0.5或n较大,nP及n(1-P)均大于等于5时,可用(p-u0.05sp,p+u0.05sp)对总体率进行95%的区间估计。当总体率P接近0.5,阳性数x较小时,可直接计算二项分布的累计概率进行单侧的假设检验。当P=0.5或n较大,nP及n(1-P)均大于等于5时,可用正态近似法进行样本率与总体率,两个样本率比较的u检验。

三、Poisson分布的概念及应用条件
1. Poisson分布的概念:
Poisson分布是二项分布n很大而P很小时的特殊形式,是两分类资料在n次实验中发生x次某种结果的概率分布。其概率密度函数为:P(x)=e-µ*µx/x! x=0,1,2...n,其中e为自然对数的底,µ为总体均数,x为事件发生的阳性数。
2. Poisson分布的应用条件:
医学领域中有很多稀有疾病(如肿瘤,交通事故等)资料都符合Poisson分布,但应用中仍应注意要满足以下条件:(1) 两类结果要相互对立;(2) n次试验相互独立;(3) n应很大, P应很小。
3. Poisson分布的概率
Poisson分布的概率利用以下递推公式很容易求得:
P(0)=e-µ
P(x+1)=P(x)*µ/x+1, x=0,1,2,...
4. Poisson分布的性质:
(1) Poisson分布均数与方差相等;
(2) Poisson分布均数µ较小时呈偏态,µ>=20时近似正态;
(3) n很大, P很小,nP=µ为常数时二项分布趋近于Poisson分布;
(4) n个独立的Poisson分布相加仍符合Poisson分布
四、Poisson分布的应用
Poisson分布也主要用于符合Poisson分布分类资料率的区间估计和假设检验。当µ>=20时,根据正态近似的原理,可用(x-u0.05*x的算术平方根,x+u0.05*x的算术平方根)对总体均数进行95%的区间估计。同样,也可通过直接计算Poisson分布的累计概率进行单侧的假设检验,在符合正态近似条件时,也可用u检验进行样本率与总体率,两个样本率比较的假设检验。
 
 

  用二项分布的近似来理解泊松分布

将n重伯努里试验中的n趋于+∞,即试想将试验过程连续化(但得到的随机变量仍然是离散型),如果这时以“寿命”作为模型来考虑,p作为活着的某一时刻的微小邻域内“死亡”的概率,当把“活着”作为一种可以离散的试验来看待的时候,让n趋于+∞,即将试验过程连续化。此时有公式lim np=λ>0,也既是说np一直作为让你“死亡”的动力因子出现,它在n趋于+∞时的极限值λ便可以理解成为“催命系数”。事实上,λ严格的数学名称就是“强度”!所以这样便不难理解二项分布与泊松分布的关系以及为什么可以拿泊松分布来近似代替二项分布了。但前提是由于n很大,p必须要甚小,所以泊松分布常被用来研究稀有事件的频数,当λ=np不太大时,比如小于30,便可以近似计算,而小于5时效果更佳!

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有