加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

从贝叶斯到beta分布

(2018-03-05 14:59:17)
标签:

贝叶斯

二项分布

beta

分布

分类: 大数据处理

一、贝叶斯统计

先验分布,后验分布

二、共轭分布

在贝叶斯统计中,如果后验分布与先验分布属于同类,则先验分布与后验分布被称为共轭分布,而先验分布被称为似然函数的共轭先验。

具体地说,给定贝叶斯公式P(θ|x)P(x|θ)P(θ),其中P(θ)P(θ|x)属于同类分布,那么P(θ)就是P(θ|x)的共轭先验。

三、二项分布与beta分布

在概率论和统计学中,二项分布是n个独立的(/)试验中成功的次数的离散概率分布。对于硬币或者骰子这样的简单实验,我们事先能很准确地掌握系统成功地概率。然而通常情况下,系统成功的概率是未知的。为了测试系统的成功概率p,我们做n次试验,统计成功的次数k,于是很直观地就可以计算出p=k/n。然而由于系统成功地概率是未知地,这个公式计算出地p只是系统成功概率的最佳估计。也就是说实际上p也可能为其他的值,只是为其他的值的概率较小。

例如有某种特殊的硬币,我们事先完全无法确定它出现正面的概率。然后抛10次硬币,出现5次正面,于是我们认为硬币出现正面的概率最可能是0.5,但是即使硬币出现正面的概率为0.4,也会出现抛10次出现5次正面的情况。因此我们并不能完全确定硬币出现正面的概率就是0.5,所以p也是一个随机变量,它符合beta分布。

用一句话来说,beta分布可以看作一个概率的概率分布,当你不知道一个东西的具体概率是多少时,它可以给出所有概率出现的可能性大小。Beta分布是一个连续分布,由于它描述概率p的分布,因此其取值范围为01Beta分布有α和β两个参数,其中α为成功次数加1,β为失败次数加1Beta是二项分布的共轭分布Beta分布的均值是α/(α+ β)

四、beta分布形象化解释

4.1代码

#! usr/bin/python

#coding=utf-8

import numpy as np

import matplotlib.pyplot as plt

from scipy import stats

 

def main():

  a1 = 4

  b1 = 5

  a2 = 400

  b2 = 419

 

  x = np.arange(0.01, 1, 0.01)

  y1 = stats.beta.pdf(x, a1, b1)  // pdf:Probability density function

  y2 = stats.beta.pdf(x, a2, b2)

  plt.plot(x, y1, color='red')

  plt.plot(x, y2, color='green')

  plt.show()

 

if __name__ == '__main__':

    main()

4.2 结果说明

从贝叶斯到beta分布

对于第一组实验,4次成功5次失败,红色部分3%左右概率显示最后成功概率是0.444/9)。第二组实验400次成功419次失败,绿色部分23%左右概率显示最后成功概率是0.5左右。

总结:每增加一次实验,都会让beta分布变得更尖,同时往概率的概率均值往最佳估计概率靠近,比如上面的0.5

五、实际应用

现有一个棒球运动员,我们希望能够预测他在这一赛季中的棒球击球率是多少。你可能就会直接计算棒球击球率,用击中的数除以击球数,但是如果这个棒球运动员只打了一次,而且还命中了,那么他击球率是100%了,这显然不合理。

对于这个问题,我们可以用一个二项分布表示(一系列成功或失败),一个最好的方法来表示这些经验(在统计中称为先验信息)就是用beta分布,这表示在我们看到这个运动员打球之前,我们就有了一个大概的范围。

接下来我们将这些先验信息转换为beta分布的参数,我们知道一个击球率应该是平均0.27左右,而他的范围是0.210.35,那么根据这个信息,我们可以取α=81,β=219

从贝叶斯到beta分布

之所以取这两个参数是因为:

(1)beta分布的均值是α/(α+ β)=0.27

(2)从图中可以看到这个分布主要落在了(0.20.35)之间,这是从经验中得出的合理的范围。

我们的x轴就表示各个击球率的取值,x对应的y值就是这个击球率所对应的概率。

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有