统计学习方法(3)-贝叶斯定理与变量的独立性以及条件独立性

标签:
佛学 |
分类: ML_DL |
从贝叶斯方法谈到贝叶斯网络
无条件独立和条件独立的定义:
两个事件的统计独立性
事件http://www.math.zju.edu.cn/Probability/course/chapter1-4.files/image286.gif发生的概率有影响,但也有相反的情况,即有时有
http://www.math.zju.edu.cn/Probability/course/chapter1-4.files/image288.gif.
这时,http://www.math.zju.edu.cn/Probability/course/chapter1-4.files/image290.gif.
http://www.math.zju.edu.cn/Probability/course/chapter1-4.files/image292.gif,
则
http://www.math.zju.edu.cn/Probability/course/chapter1-4.files/image294.gif.
这种情况称http://www.math.zju.edu.cn/Probability/course/chapter1-4.files/image298.gif统计独立(statistical independence),或http://www.math.zju.edu.cn/Probability/course/chapter1-4.files/image304.gif统计相依(statistical dependence).也就是:P(A|B) = P(B) 或者P(A,B) = P(A)*P(B)
多个事件互相独立:
http://www.math.zju.edu.cn/Probability/course/chapter1-4.files/image443.gif
则称http://www.math.zju.edu.cn/Probability/course/chapter1-4.files/image446.gif相互独立.
条件独立:
条件独立是条件概率的独立性,条件概率也是一种概率,只不过是将事件的空间集合改变。
设有事件R和B,当它们在事件Y定义的空间上相互独立时要满足
http://my.csdn.net/uploads/201206/21/1340265347_2770.png
或者表达成
http://my.csdn.net/uploads/201206/21/1340265474_4675.png
R和B在给定事件W的条件下独立时,表达为
http://my.csdn.net/uploads/201206/21/1340265570_6819.png
要注意的是,X和Y独立与X和Y条件独立没有关系。显然,条件独立无法推得独立,同样的相互独立也无法保证在任意空间上条件独立。
两个事件关于某一个事件乘积的概率,等于条件概率的积。P(AB/C)=P(A/C)P(B/C)则A、B条件独立(在条件C已知的前提下独立) 或者P(A|C)=P(A|BC)也称为条件独立。
证明:
设A、B、C为事件,P(ABC)>0,如果P(AB|C)=P(A|C)P(B|C),则( D)
解答:由P(ABC)>0, P(AB|C)=P(A|C)P(B|C)
因为若P(A)>0,P(B)>0,P(C)>0不满足,则P(ABC)>0不成立。
因为P(AB|C)=P(A|C)P(B|C) ,两边同时乘以P(C) 使左边为P(ABC)
==>
P(ABC)=P(AC)*P(B|C)
对(1)式变形,即可得到:P(ABC)/P(AC)=P(B|C)
0 引言
1 贝叶斯方法
1.1 贝叶斯方法的提出
- 频率派把需要推断的参数θ看做是固定的未知常数,即概率http://img.blog.csdn.net/20141110214603237虽然是未知的,但最起码是确定的一个值,同时,样本X 是随机的,所以频率派重点研究样本空间,大部分的概率计算都是针对样本X 的分布;
- 而贝叶斯派的观点则截然相反,他们认为参数http://img.blog.csdn.net/20141110214603237是随机变量,而样本X 是固定的,由于样本是固定的,所以他们重点研究的是参数http://img.blog.csdn.net/20141110214603237的分布。
以成功学为例子:频率派研究的是成功的人的特征是怎么样的,不成功的人的特征是什么,研究的是输入样本的特征,成功/失败的样本的分布是怎么样的。
而贝叶斯认为不同的人成功的概率是不同的,因此概率分布是一个变量。比如这部分人成功的概率是多少,失败的概率是多少。贝叶斯认为的成功和失败是一个概率,而频率派认为的成功和失败是一个0/1的结果,因此去研究那些人会成功,那些人会失败(但实际上具有这些特征的人就一定会成功吗?。。。)。
相对来说,频率派的观点容易理解,所以下文重点阐述贝叶斯派的观点。
也就是说先定义了一个结果的概率分布(先验概率),再根据实际的样本信息来修正它(后验概率)。
再比如,某工厂每天都要对产品进行质检,以评估产品的不合格率θ,经过一段时间后便会积累大量的历史资料,这些历史资料便是先验知识,有了这些先验知识,便在决定对一个产品是否需要每天质检时便有了依据,如果以往的历史资料显示,某产品的不合格率只有0.01%,便可视为信得过产品或免检产品,只每月抽检一两次,从而省去大量的人力物力。
1.2 贝叶斯定理
- 条件概率(又称后验概率)就是事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为P(A|B),读作“在B条件下A的概率”。
http://img.blog.csdn.net/20141114111032274
- 联合概率表示两个事件共同发生的概率。A与B的联合概率表示为http://img.my.csdn.net/uploads/201212/17/1355742607_7553.png。
-
边缘概率(又称先验概率)是某个事件发生的概率。边缘概率是这样得到的:在联合概率中,把最终结果中那些不需要的事件通过合并成它们的全概率,而消去它们(对离散随机变量用求和得全概率,对连续随机变量用积分得全概率),这称为边缘化(marginalization),比如A的边缘概率表示为P(A),B的边缘概率表示为P(B)。
- 首先,事件B发生之前,我们对事件A的发生有一个基本的概率判断,称为A的先验概率,用P(A)表示;
- 其次,事件B发生之后,我们对事件A的发生概率重新评估,称为A的后验概率,用P(A|B)表示;
- 类似的,事件A发生之前,我们对事件B的发生有一个基本的概率判断,称为B的先验概率,用P(B)表示;
- 同样,事件A发生之后,我们对事件B的发生概率重新评估,称为B的后验概率,用P(B|A)表示。
http://img.my.csdn.net/uploads/201212/17/1355743621_3291.png
http://img.my.csdn.net/uploads/201212/17/1355743641_7924.png
http://img.my.csdn.net/uploads/201212/17/1355743655_7717.png
http://img.my.csdn.net/uploads/201212/17/1355743670_7907.png
1.3 应用:拼写检查
- P(c)表示某个正确的词的出现"概率",它可以用"频率"代替。如果我们有一个足够大的文本库,那么这个文本库中每个单词的出现频率,就相当于它的发生概率。某个词的出现频率越高,P(c)就越大。比如在你输入一个错误的词“Julw”时,系统更倾向于去猜测你可能想输入的词是“July”,而不是“Jult”,因为“July”更常见。
- P(w|c)表示在试图拼写c的情况下,出现拼写错误w的概率。为了简化问题,假定两个单词在字形上越接近,就有越可能拼错,P(w|c)就越大。举例来说,相差一个字母的拼法,就比相差两个字母的拼法,发生概率更高。你想拼写单词July,那么错误拼成Julw(相差一个字母)的可能性,就比拼成Jullw高(相差两个字母)。值得一提的是,一般把这种问题称为“编辑距离”,参见博客中的这篇文章。
2 贝叶斯网络
2.1 贝叶斯网络的定义
http://img.blog.csdn.net/20141110224303808
2.2 贝叶斯网络的3种结构形式
- 1. x1,x2,…x7的联合分布为
- 2. x1和x2独立(对应head-to-head);
- 3. x6和x7在x4给定的条件下独立(对应tail-to-tail),这就是条件独立。
2.2.1 形式1:head-to-head
2.2.2 形式2:tail-to-tail
- 在c未知的时候,有:P(a,b,c)=P(c)*P(a|c)*P(b|c),此时,没法得出P(a,b) = P(a)P(b),即c未知时,a、b不独立。
- 在c已知的时候,有:P(a,b|c)=P(a,b,c)/P(c),然后将P(a,b,c)=P(c)*P(a|c)*P(b|c)带入式子中,得到:P(a,b|c)=P(a,b,c)/P(c)
=
P(c)*P(a|c)*P(b|c) / 。P(c) = P(a|c)*P(b|c),即c已知时,a、b独立
2.2.3 形式3:head-to-tail
- c未知时,有:P(a,b,c)=P(a)*P(c|a)*P(b|c),但无法推出P(a,b) = P(a)P(b),即c未知时,a、b不独立。
- c已知时,有:P(a,b|c)=P(a,b,c)/P(c),且根据P(a,c) = P(a)*P(c|a) = P(c)*P(a|c),可化简得到:
- A和B的“head-to-tail型”和“tail-to-tail型”路径都通过C;
- A和B的“head-to-head型”路径不通过C以及C的子孙;
2.3 贝叶斯网络的实例
- smoking表示吸烟,其概率用P(S)表示,lung Cancer表示的肺癌,一个人在吸烟的情况下得肺癌的概率用P(C|S)表示,X-ray表示需要照医学上的X光,肺癌可能会导致需要照X光,吸烟也有可能会导致需要照X光(所以smoking也是X-ray的一个因),所以,因吸烟且得肺癌而需要照X光的概率用P(X|C,S)表示。
- Bronchitis表示支气管炎,一个人在吸烟的情况下得支气管炎的概率用P(B|S),dyspnoea表示呼吸困难,支气管炎可能会导致呼吸困难,肺癌也有可能会导致呼吸困难(所以lung Cancer也是dyspnoea的一个因),因吸烟且得了支气管炎导致呼吸困难的概率用P(D|C,B)表示。
2.4 因子图
http://img.blog.csdn.net/20141111005823359
- 第二行:对联合概率关于b,x,c求和(在d=1的条件下),从而消去b,x,c,得到s和d=1的联合概率。
- 第三行:最开始,所有变量都在sigma(d=1,b,x,c)的后面(sigma表示对“求和”的称谓),但由于P(s)和“d=1,b,x,c”都没关系,所以,可以提到式子的最前面。而且P(b|s)和x、c没关系,所以,也可以把它提出来,放到sigma(b)的后面,从而式子的右边剩下sigma(x)和sigma(c)。
2.4.1 因子图的定义
- 变量节点http://img.blog.csdn.net/20141111011033218
-
因子(函数)节点http://img.blog.csdn.net/20141111010947528 - 边http://img.blog.csdn.net/20141111011114904存在。
- 我们已经知道,有向图模型,又称作贝叶斯网络(Directed Graphical Models, DGM, Bayesian Network)。
http://img.blog.csdn.net/20141222112243656
- 但在有些情况下,强制对某些结点之间的边增加方向是不合适的。使用没有方向的无向边,形成了无向图模型(Undirected Graphical Model,UGM),
又被称为马尔科夫随机场或者马尔科夫网络(Markov
Random Field,
MRF or Markov network)。
http://img.blog.csdn.net/20141222112302034
- 设X=(X1,X2…Xn)和Y=(Y1,Y2…Ym)都是联合随机变量,若随机变量Y构成一个无向图 G=(V,E)表示的马尔科夫随机场(MRF),则条件概率分布P(Y|X)称为条件随机场(Conditional Random Field, 简称CRF,后续新的博客中可能会阐述CRF)。如下图所示,便是一个线性链条件随机场的无向图模型:
http://img.blog.csdn.net/20141222111852153
- 贝叶斯网络中的一个因子对应因子图中的一个结点
- 贝叶斯网络中的每一个变量在因子图上对应边或者半边
- 结点g和边x相连当且仅当变量x出现在因子g中。
http://img.blog.csdn.net/20141111234424734
2.4.2 Sum-product算法
- 联合概率表示两个事件共同发生的概率。A与B的联合概率表示为http://img.my.csdn.net/uploads/201212/17/1355742607_7553.png。
-
边缘概率(又称先验概率)是某个事件发生的概率。边缘概率是这样得到的:在联合概率中,把最终结果中不需要的那些事件合并成其事件的全概率而消失(对离散随机变量用求和得全概率,对连续随机变量用积分得全概率)。这称为边缘化(marginalization)。A的边缘概率表示为P(A),B的边缘概率表示为P(B)。
- 一种是变量(Variable)到函数(Function)的消息:http://img.blog.csdn.net/20141112163109597,如下图所示
http://img.blog.csdn.net/20141112164507756
- 另外一种是函数(Function)到变量(Variable)的消息:http://img.blog.csdn.net/20141112163122468。如下图所示:
http://img.blog.csdn.net/20141112164805362
- 1、给定如下图所示的因子图:
- 2、sum-product 算法的消息计算规则为:
- 3、根据sum-product定理,如果因子图中的函数f 没有周期,则有:
- 1、删除贝叶斯网络中的若干条边,使得它不含有无向环
- 2、重新构造没有环的贝叶斯网络
- 3、选择loopy belief propagation算法(你可以简单理解为sum-product 算法的递归版本),此算法一般选择环中的某个消息,随机赋个初值,然后用sum-product算法,迭代下去,因为有环,一定会到达刚才赋初值的那个消息,然后更新那个消息,继续迭代,直到没有消息再改变为止。唯一的缺点是不确保收敛,当然,此算法在绝大多数情况下是收敛的。
3 参考文献和推荐阅读
- Thomas Bayes "An essay towards solving a Problem in the
Doctrine of Chances"(贝叶斯定理原始论文):http://www.sbs-bvs.be/bsn57/bsn57-6.pdf;
- 《数理统计学简史 第三章 贝叶斯方法》;
- 《贝叶斯统计 茆诗松著》;
- “Julw”的搜索结果:http://www.gu1234.com/search?hl=zh-CN&site=webhp&source=hp&q=Julw&btnK=Google+搜索&gws_rd=ssl;
- 北京10月机器学习班第9次课,邹博讲贝叶斯网络的PPT:http://pan.baidu.com/s/1o69Lp1K;
- 相关wikipedia,比如贝叶斯定理的wiki:http://zh.wikipedia.org/zh/贝叶斯定理,贝叶斯网络的wiki:http://zh.wikipedia.org/wiki/貝氏網路。因子图中文wiki:http://zh.wikipedia.org/zh/因子图,英文wik:http://en.wikipedia.org/wiki/Factor_graph。
- 《统计决策论及贝叶斯分析 James O.Berger著》;
- 贝叶斯定理:http://www.guokr.com/question/547339/;
- 贝叶斯推断及其互联网应用(一):定理简介http://www.ruanyifeng.com/blog/2011/08/bayesian_inference_part_one.html;
- 贝叶斯推断及其互联网应用(三):拼写检查http://www.ruanyifeng.com/blog/2012/10/spelling_corrector.html;
- Google研发总监Peter Norvig解释拼写检查的原理:http://norvig.com/spell-correct.html;
- http://www.eng.yale.edu/pjk/eesrproj_02/luckenbill_html/node4.html(sum-product);
- Pattern Recognition and Machine
Learning
Chapter 8, M. Jordan, J. Kleinberg, ect, 2006; - D-Separation(D分离)-PRML-8.22-Graphical Model
by 小军:http://www.zhujun.me/d-separation-separation-d.html;
- 因子图介绍 by Hans-Andrea Loeliger:http://www.robots.ox.ac.uk/~parg/mlrg/papers/factorgraphs.pdf;
-
http://netclass.csu.edu.cn/jpkc2003/rengongzhineng/rengongzhineng/kejian/ai/ai/chapter4/442.htm;
- 贝叶斯网的R实现( Bayesian networks in R)(二)bnlearn(2):http://site.douban.com/182577/widget/notes/12817482/note/283039795/;
- 知乎上关于贝叶斯学派跟频率派的区别的讨论:http://www.zhihu.com/question/20587681;
- factor graph,因子图,势函数potential function,Template models:http://www.cnblogs.com/549294286/archive/2013/06/06/3121454.html;
- Online Bayesian Probit Regression介绍之Factor Graph:http://www.doingkong.com/?p=68;
- An Introduction to
Factor Graphs,Hans-Andrea Loeliger,MLSB 2008:http://people.binf.ku.dk/~thamelry/MLSB08/hal.pdf; - Factor graph and sum-product algorithm, Frank R. Kschischang, Brendan J.Frey, ect, 1998:http://filebox.vt.edu/~rmtaylor/Graphical_Modeling/Intro_and_tutorial/Kschischang_ffg_sumproduct.pdf;
- A Tutorial on Inference and Learning in Bayesian Networks, Irina Rish:http://www.ee.columbia.edu/~vittorio/Lecture12.pdf;
- Probabilistic Graphical Models Directed GMs: Bayesian Networks:http://www.cs.cmu.edu/~epxing/Class/10708/lectures/lecture2-BNrepresentation.pdf;
- A Brief Introduction to Graphical Models and Bayesian Networks
By Kevin Murphy, 1998:http://www.cs.ubc.ca/~murphyk/Bayes/bayes.html;
- Probabilistic Models for
Unsupervised Learning(从一个统一的视角去理解: bayesian、MAP、ML,以及FA、EM、PCA、ICA、GMM、HMM等算法):http://mlg.eng.cam.ac.uk/zoubin/nipstut.pdf;
- PRML概率图模型读书笔记:http://vdisk.weibo.com/s/DmxNcM5-7sGS;
- 12月14日,机器学习班第15次课,邹博讲条件随机场CRF的PPT:http://pan.baidu.com/s/1qWBdOD2。