从贝叶斯到beta分布

标签:
贝叶斯二项分布beta分布 |
分类: 大数据处理 |
一、贝叶斯统计
先验分布,后验分布
二、共轭分布
在贝叶斯统计中,如果后验分布与先验分布属于同类,则先验分布与后验分布被称为共轭分布,而先验分布被称为似然函数的共轭先验。
具体地说,给定贝叶斯公式P(θ|x)∝P(x|θ)P(θ),其中P(θ)与P(θ|x)属于同类分布,那么P(θ)就是P(θ|x)的共轭先验。
三、二项分布与beta分布
在概率论和统计学中,二项分布是n个独立的(是/非)试验中成功的次数的离散概率分布。对于硬币或者骰子这样的简单实验,我们事先能很准确地掌握系统成功地概率。然而通常情况下,系统成功的概率是未知的。为了测试系统的成功概率p,我们做n次试验,统计成功的次数k,于是很直观地就可以计算出p=k/n。然而由于系统成功地概率是未知地,这个公式计算出地p只是系统成功概率的最佳估计。也就是说实际上p也可能为其他的值,只是为其他的值的概率较小。
例如有某种特殊的硬币,我们事先完全无法确定它出现正面的概率。然后抛10次硬币,出现5次正面,于是我们认为硬币出现正面的概率最可能是0.5,但是即使硬币出现正面的概率为0.4,也会出现抛10次出现5次正面的情况。因此我们并不能完全确定硬币出现正面的概率就是0.5,所以p也是一个随机变量,它符合beta分布。
用一句话来说,beta分布可以看作一个概率的概率分布,当你不知道一个东西的具体概率是多少时,它可以给出所有概率出现的可能性大小。Beta分布是一个连续分布,由于它描述概率p的分布,因此其取值范围为0到1。Beta分布有α和β两个参数,其中α为成功次数加1,β为失败次数加1。Beta是二项分布的共轭分布。Beta分布的均值是α/(α+ β)
四、beta分布形象化解释
4.1代码
#! usr/bin/python
#coding=utf-8
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats
def main():
if __name__ == '__main__':
4.2 结果说明
对于第一组实验,4次成功5次失败,红色部分3%左右概率显示最后成功概率是0.44(4/9)。第二组实验400次成功419次失败,绿色部分23%左右概率显示最后成功概率是0.5左右。
总结:每增加一次实验,都会让beta分布变得更尖,同时往概率的概率均值往最佳估计概率靠近,比如上面的0.5。
五、实际应用
现有一个棒球运动员,我们希望能够预测他在这一赛季中的棒球击球率是多少。你可能就会直接计算棒球击球率,用击中的数除以击球数,但是如果这个棒球运动员只打了一次,而且还命中了,那么他击球率是100%了,这显然不合理。
对于这个问题,我们可以用一个二项分布表示(一系列成功或失败),一个最好的方法来表示这些经验(在统计中称为先验信息)就是用beta分布,这表示在我们看到这个运动员打球之前,我们就有了一个大概的范围。
接下来我们将这些先验信息转换为beta分布的参数,我们知道一个击球率应该是平均0.27左右,而他的范围是0.21到0.35,那么根据这个信息,我们可以取α=81,β=219。
之所以取这两个参数是因为:
(1)beta分布的均值是α/(α+ β)=0.27
(2)从图中可以看到这个分布主要落在了(0.2,0.35)之间,这是从经验中得出的合理的范围。
我们的x轴就表示各个击球率的取值,x对应的y值就是这个击球率所对应的概率。