【概率论与数理统计】显著性检验——费舍尔与“女士品茶”
(2016-08-26 19:35:46)
标签:
p值概率论统计学 |
分类: 算法初探 |
注:五年前曾在博客上发过一篇文章——【生物统计】生物学中P值的意义,当时对p值几乎没有任何概念(其实现在也好不到哪去)。p值的计算对于我来说始终是一个悬而未决的问题。最近在读陈希孺老师写的《数理统计学简史》,看到“假设检验”这一章,对这个问题进行了一些解释。有助于对该问题的理解,故摘录于此。
1. 试验设计和进行显著性检验的一些基本原则
与卡尔·皮尔逊处理的大量由自然观察得到的数据(大样本)相反,费歇尔关心的问题,是从人为试验中得到的少量数据(小样本)中,去检测所关心的某项效应之有无。例如用一种预期能增产的农业品种来取代现用品种。新品种的增产效应是否确实呢?这需要通过试验收集数据来检验,费歇尔把这种检验叫做显著性检验。在他1936年发表的《试验设计》这一著作的前3章中,他提出了有关设计试验和进行显著性检验的一些基本原则。
费歇尔指出:一个试验的分析和解释,与该试验的结果密不可分。因而为了能通过试验获取新的知识,必须有某些原则存在。特别是,要使在归纳性推理中必然存在的不确定性,能通过概率从数量上表示出来。他认为,适当地设计试验,就能达到这一目标。而这个所谓“适当地”的含义,包含两个要点:一个试验要有随机性,以使检验统计量服从一定的概率分布;二是包含重复、分区组等技巧,以降低误差的影响而提高试验的灵敏度。
关于“显著性检验”的实质,费歇尔提出以下几点解释:
1). 有一个命题,称之为“零假设”或“解消假设”(null hypothesis),其含义是:所关心的效应不存在(不存在即为0,“效应不存在”即“解消”了“有效应”的说法)。<</span>这有点像反证法,想要证明一件事情,先否定它,然后如果发现这件事情的逆命题发生的概率很小,那么原命题就非常有可能发生。>设计试验的唯一目的,是寻求否定零假设的证据。
2). 可找到一个统计量T,其值可按对否定零假设所提供的证据强弱来排序,比方说,T值越大,否定零假设的证据越强。零假设要足够确定,使得在它成立的前提下,可算出T的确切分布。这个分布的根据就包含在试验的具体设计中。
3). 若在试验中得到T值为T0,则大于等于T0的一切T值,是比本实验所得值更倾向于否定零假设的全部情况(因为在第2点中说明了,T值越大,否定零假设的证据越强)。
(p值终于出现了!p值的本质是一个条件概率,也就是之前那篇文章中提到的“在零假设成立的条件下,观察到比本次实验结果更极端的结果的概率”,而计算概率需要知道随机变量的分布。)
如果p值很小,则说明:在零假设成立时,极不容易得到大于等于T0的T值,而现在居然得到了,因而是“零假设不对”的有力证据。因此,定义
至于p要小到多少才能被认为是零假设不成立的充分证据,这不能给出公认的界限。是根据问题的具体性质及当事人的倾向性来决定的。如p≤0.01称0.01的显著性水平。通常讲显著性水平高是指这个概率值低。
2. 女士品茶试验
费歇尔通过两个实例来解释上面这些概念。其中一个便是著名的“女士品茶”试验。(甚至还有一本以此命名的介绍数理统计史的书)牛奶茶是茶与牛奶按一定比例混合得到的。在制作时有两种方法:先放牛奶后放茶(MT),先放茶后方牛奶(TM)。某女士声称她能鉴别MT和TM,于是做一个实验来判断她所说的是否有根据。准备8杯牛奶茶,MT和TM各半,给这位女士喝,让她把MT和TM分辨出来(先告诉她各有4杯)。以x记录她说对的杯数。则只能取8、6、4、2和0这5个值。
立下零假设“该女士没有辨别MT和TM的能力”。这时,她从给她8杯中挑出4杯(作为MT)的方法,与随机地从8杯中挑出4杯是一样的。由此可以计算出,在零假设成立时,x的分布为
x值 |
8 |
6 |
4 |
2 |
0 |
概率 |
1/70 |
16/70 |
36/70 |
16/70 |
1/70 |
- P(x=0) = (4/8)*(3/7)*(2/6)*(1/5) = 1/70 (表示一次都没说对,例如将所有的MT说成了TM)
- P(x=2) = 4*(4/8)*(3/7)*(2/6)*(4/5) = 16/70(表示在选出来的4杯中只有一次说对了,那么剩下的4杯肯定也有一次是对的,因此x=2)
- P(x=4) = 6*(4/8)*(3/7)*(4/6)*(3/5) = 36/70(表示在选出来的4杯中有两次说对了,那么剩下的4杯肯定也有两次是对的,因此x=4,前面的6是4选2得到的组合数)
- P(x=6) = P(x=2)
= 16/70(表示在选出来的4杯中有三次说对了,那么剩下的4杯肯定也有三次是对的,因此x=6) - P(x=8) =
P(x=0) = 1/70(全部说对与全部说错一样难)
取检验统计量T=x,T值越大,越能说明该女士有分辨力而更倾向于否定零假设。设T=8,即女士全说对了,这时的显著性水平为
显著性很高,有理由认为可否定零假设。
3. 分析结果
当然,上面的试验结果也随实验者的看法而异,也可能他不认为这个结果已提供了强有力的证据。这时他可加大力度,例如把8杯改为12杯(MT、TM各6)。这时在零假设下,T=12的概率只有1/924 ≈ 0.0011。如果某女士试验结果为T = 12, 则否定零假设的证据就有力得多。
仍回到费歇尔的试验。若T = 6,成绩也很可观,但此时的显著性水平为
也就是说,仅凭瞎碰(或一个根本就没有任何分辨能力的人),也有近乎1/4的机会取得比该女士一样或更好的成绩(这里利用了没有发生的T=8的可能性,而不仅仅是当前的试验结果T=6带来的信息),因此这没有为否定零假设提供有力的根据。
费歇尔强调零假设不能被证明。如此例得T=6,我们不能否定零假设,但也不说明零假设就对了。因为该女士可能有一定程度(但非100%)的鉴别力,例如判对率为2/3,那也可以很好地解释T=6这个试验结果。
本例中的设计部分有两个方面:一是保证随机性,即MT和TM从杯子等外表上不能有差异,且是按随机次序(如通过摸球)把这8杯依次交给该女士。这个作法保证了费歇尔的上述第2条原则:在零假设成立的前提下,可计算出检验统计量的确切分布。
另一反面是杯数及预定MT和TM的数目。比方说,在预定8杯时,是否将TM和MT各取一半为好,还是其他数目,如MT2杯,TM6杯?还有,是告诉该女士MT和TM各有多少杯还是不告诉的好?
对于杯数,当然是多一些试验的灵敏度更高,但有一个代价问题(人力物力时间)。这个问题在本例中表现的不明显,但如果在费用昂贵且安排试验费时费人的场合,就是一个不得不考虑的因素了。至于MT和TM的数目,肯定是各半为好。如在8杯的情况,若MT取2杯,则该女士全说对时,显著性水平也只有1/28,远不如取4杯时的1/70好。关于是否把MT的杯数告诉该女士的问题,则是不告诉时灵敏度更高。如在8杯而MT有4杯的场合,若不告诉该女士,则她由于瞎碰而全碰对的机会只有1/128,比1/70的显著性高,仅是这样一个简单例子就有如此多的考虑,在复杂的情况下当然更是如此,这说明试验设计的重要性。
摘自《数理统计学简史》,陈希孺,湖南教育出版社,2002年