如何理解概率上的独立这个概念
(2011-08-06 10:07:18)
标签:
杂谈 |
为了理解独立,我们举个例子。
假定有100个样本,其中吸烟的有20个人,肺癌有5人,这5人中有4人吸烟。
有这几个数据我们可以做如下naive的计算
1)吸烟率:P(吸烟)=20/100 = 1/5
2) 肺癌率:P(肺癌)=5/100 = 1/20
3) 吸烟且肺癌率:P(吸烟,肺癌)=4/100 = 1/25
那么吸烟和肺癌两个事件是否独立呢?
如果P(吸烟|肺癌) = P(吸烟) 或者 P(肺癌|吸烟) = P(肺癌)
那么就是独立的。
P(吸烟) = 1/5 < P(吸烟|肺癌) = 4/5
显然不独立,怎么理解呢?
我从100个人捞一个肺癌的概率是1/20
如果从100个吸烟的人里,捞一个肺癌的概率如果也是1/20
那么说明,我得到的这个certainty的信息(吸烟人群),对我最后捞出肺癌人没有帮助,换句话说没有提供信息量,那么吸烟和肺癌就是独立的。
反之,如果给我了一个吸烟人群,我捞出肺癌的概率提高了,或者降低了,说明吸烟人群的这个条件,对吸烟概率的精准计算有帮助,那么吸烟和肺癌就不再独立,而是相互依存。
那么条件独立也就不难理解了。
例如有一种神族,怎么吸烟都不会导致得肺癌,得肺癌的几率很自然。
也就是P(吸烟,肺癌|神族) = P(吸烟|神族)*P(肺癌|神族)
可以理解为神族这个条件将样本进行了一次筛选,在这个小样本集合中,吸烟和肺癌奇迹般得独立了,因为这个小样本的人都是神族。条件独立的公式必须依存一个条件,是这个条件,将其变为独立。