加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

正态分布&概率密度函数

(2018-09-08 21:49:49)

正态分布曲线反映了随机变量的分布规律。理论上的正态分布曲线是一条中间高,两端逐渐下降且完全对称的钟形曲线


正态分布Normal distribution)又名高斯分布Gaussian distribution),是一个在数学物理project领域都很重要的概率分布,在统计学的很多方面有着重大的影响力。

随机变量X服从一个数学期望μ标准方差σ2的高斯分布,记为:

XN(μ,σ2),

则其概率密度函数

http://upload.wikimedia.org/wikipedia/zh/math/c/0/2/c02d21bb87997c0d8564ba60e47d9589.png

正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。因其曲线呈钟形,因此人们又常常称之为钟形曲线我们通常所说的标准正态分布μ = 0,σ = 1的正态分布(见右图中绿色曲线)。

有几种不同的方法用来说明一个随机变量。最直观的方法是概率密度函数,这样的方法可以表示随机变量每一个取值有多大的可能性。累积分布函数是一种概率上更加清楚的方法,可是非专业人士看起来不直观(请看下边的样例)。另一些其它的等价方法,比如cumulant特征函数动差生成函数以及cumulant-生成函数。这些方法中有一些对于理论工作很实用,可是不够直观。请參考关于概率分布的讨论。


正态分布中一些值得注意的量:

  • 密度函数关于平均值对称
  • 平均值是它的众数(statistical mode)以及中位数(median)
  • 函数曲线下68.268949%的面积在平均值左右的一个标准差范围内
  • 95.449974%的面积在平均值左右两个标准差的范围内
  • 99.730020%的面积在平均值左右三个标准差的范围内
  • 99.993666%的面积在平均值左右四个标准差的范围内
  • 反曲点(inflection point)在离平均值的距离为标准差之处

标准偏差

在实际应用上,常考虑一组数据具有近似于正态分布的概率分布。若其如果正确,则约68%数值分布在距离平均值有1个标准差之内的范围,约95%数值分布在距离平均值有2个标准差之内的范围,以及约99.7%数值分布在距离平均值有3个标准差之内的范围。称为"68-95-99.7法则"或"经验法则".

http://www.360doc.com/content/17/0306/13/32342759_634411464.shtml什么是正态分布

正态概率分布是连续型随机变量概率分布中最重要的形式,它在实践中有着广泛的应用。在生活中有许多现象的分布都服从正态分布,如人的身高、体重、智商分数;某种产品的尺寸和质量;降雨量;学习成绩,特别是,在统计推断时,当样本的数量足够大时,许多统计数据都服从正态分布。下面以人的身高为例,通俗解释一下什么是正态分布?

随机抽取200位同等年龄上下的男性,测量好他们的身高之后计算出平均身高,通过将平均身高和他们各自的身高对比,我们可以轻松发现这一现象:大多数男性的身高都集中在平均身高上下浮动,有极少数男性身高很矮,也有极少数男性身高很高。这200为男性身高的概率密度函数可能如下图所示:

http://image104.360doc.com/DownloadImg/2017/03/0613/93172330_1

实际上,这种形状十分常见,应用很广泛,它叫做正态分布。

正态分布的概率密度函数

正态分布之所以被称为正态是因为它的形态看起来合乎理性。在现实生活中,遇到测量值之类的大量连续数据时,正常情况下都会期望看到这种形态。正态分布的概率密度函数的计算公式如下:

http://image104.360doc.com/DownloadImg/2017/03/0613/93172330_2

其中μ=均值,σ=标准差,π=3.14159,e=2.71828。如果随机变量X符合上述概率密度函数的分布,则称X是服从参数为μ,σ2的正态分布,记为X~N(μ,σ2)

http://image104.360doc.com/DownloadImg/2017/03/0613/93172330_3


正态分布的概率密度函数具有下列性质;

  1. 以x=μ为对称轴的对称分布;

  2. σ2指分散性,σ2值越大,正态分布的曲线越扁平、越宽;

    1. 以x轴为渐近线;

    2. 若随机变量X1,X2…,Xn皆服从正态分布,且相互独立,则对任意几个常数a1,a2,…,an(不全为0),Z=a1X1+a2x2+……+anXn也服从正态分布。

    3. 正态分布求概率

      在《每天一点统计学——概率密度函数》中,我们已经知道如何使用概率密度函数求概率的方法。但是在正态分布中求概率是非常困难的,提供包括所有不同的μ和σ的正态分布表也是不可能的。所以统计学家通过一种简单的方法来解决这一问题。对于一个随机变量X~N(μ,σ2),如果令Z=(x-μ)/σ(标准分),则随机变量Z服从μ=0,σ2=1的正态分布,记为Z~N(0,1),称为标准正态分布。

      标准正态分布的概率密度函数为:

      http://image104.360doc.com/DownloadImg/2017/03/0613/93172330_4

    4. 例子:已知研究生完成一篇硕士论文的时间服从正态分布,平均花费2500h,标准差为400h,现随机找到一个已完成论文的学生,求:

      (1)他完成论文的时间超过2700h的概率;

      (2)他完成论文的时间低于2000h的概率;

      (3)他完成论文的时间在2400h~2600h之间的概率。

      解:用X表示完成论文的时间,则X~N(2500,400*400)。这是非标准的正态分布,如果直接计算概率是非常麻烦的,我们首先将其转化为标准正态分布,然后通过标准正态分布表查出变量的概率值。

      (1)求P(X>2700)

      Z=(x-μ)/σ=(2700-2500)/400=0.5

(2)求P(X<>

Z=(x-μ)/σ=(2000-2500)/400=-1.25

根据正态分布的对称性,1.25的概率值与-1.25的概率值完全对称,所以只查1.25的概率值即可。Z=1.25时,P(1.25)=0.8944,则P(-1.25)= 1-P(1.25)=0.1056

(3)求P(2400<><>

Z1=(x-μ)/σ=(2600-2500)/400=0.25

Z2=(x-μ)/σ=(2400-2500)/400=-0.25

查询标准正态分布概率表,可得出P(0.25) = 0.5987,P(-0.25) = 0.4013。

P(2400<><><2600) -=""><2400) =="" 0.5987="" -="" 0.4013="">


在某次数学考试中,考生的成绩http://pic2.mofangge.com/upload/papers//20140823/20140823125453019186.gif~N(90,100).
(1)试求考试成绩http://pic2.mofangge.com/upload/papers//20140823/20140823125453019186.gif位于区间(70,110)上的概率是多少?
(2)若这次考试共有2 000名考生,试估计考试成绩在(80,100)间的考生大约有多少人?

1)0.954 4(2)1 365人
http://pic2.mofangge.com/upload/papers//20140823/20140823125453253251.gif="10.                  " 1分
(1)由于正态变量在区间(http://pic2.mofangge.com/upload/papers//20140823/20140823125453019186.gif位于区间(70,110)内的概率就是0.954 4.              6分
(2)由http://pic2.mofangge.com/upload/papers//20140823/20140823125453237180.gif="100.                               " 8分
由于正态变量在区间(http://pic2.mofangge.com/upload/papers//20140823/20140823125453237180.gif)内取值的概率是0.682 6,
所以考试成绩http://pic2.mofangge.com/upload/papers//20140823/20140823125453019186.gif位于区间(80,100)内的概率是0.682 6.                   11分
一共有2 000名考生,所以考试成绩在(80,100)间的考生大约有2 000×0.682 6≈1 365(人).   14分

概率密度函数

概率密度函数有时也被称为概率分布函数,但这种称法可能会和累积分布函数或概率质量函数混淆。

数学中,连续型随机变量概率密度函数(在不至于混淆时可以简称为密度函数)是一个描述这个随机变量的输出值,在某个确定的取值点附近的可能性的函数。图中,横轴为随机变量的取值,纵轴为概率密度函数的值,而随机变量的取值落在某个区域内的概率为概率密度函数在这个区域上的积分。当概率密度函数存在的时候,累积分布函数是概率密度函数的积分。概率密度函数一般以大写“PDF”(Probability Density Function)标记



a

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有