加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

【概率论与数理统计】显著性检验——费舍尔与“女士品茶”

(2016-08-26 19:35:46)
标签:

p值

概率论

统计学

分类: 算法初探

:五年前曾在博客上发过一篇文章——【生物统计】生物学中P值的意义,当时对p值几乎没有任何概念(其实现在也好不到哪去)。p值的计算对于我来说始终是一个悬而未决的问题。最近在读陈希孺老师写的《数理统计学简史》,看到“假设检验”这一章,对这个问题进行了一些解释。有助于对该问题的理解,故摘录于此。


1. 试验设计和进行显著性检验的一些基本原则

与卡尔·皮尔逊处理的大量由自然观察得到的数据(大样本)相反,费歇尔关心的问题,是从人为试验中得到的少量数据(小样本)中,去检测所关心的某项效应之有无。例如用一种预期能增产的农业品种来取代现用品种。新品种的增产效应是否确实呢?这需要通过试验收集数据来检验,费歇尔把这种检验叫做显著性检验。在他1936年发表的《试验设计》这一著作的前3章中,他提出了有关设计试验和进行显著性检验的一些基本原则。

费歇尔指出:一个试验的分析和解释,与该试验的结果密不可分。因而为了能通过试验获取新的知识,必须有某些原则存在。特别是,要使在归纳性推理中必然存在的不确定性,能通过概率从数量上表示出来。他认为,适当地设计试验,就能达到这一目标。而这个所谓“适当地”的含义,包含两个要点:一个试验要有随机性,以使检验统计量服从一定的概率分布;二是包含重复、分区组等技巧,以降低误差的影响而提高试验的灵敏度。

关于“显著性检验”的实质,费歇尔提出以下几点解释:

1). 有一个命题,称之为“零假设”或“解消假设”(null hypothesis),其含义是:所关心的效应不存在(不存在即为0,“效应不存在”即“解消”了“有效应”的说法)。<</span>这有点像反证法,想要证明一件事情,先否定它,然后如果发现这件事情的逆命题发生的概率很小,那么原命题就非常有可能发生。>设计试验的唯一目的,是寻求否定零假设的证据。

2). 可找到一个统计量T,其值可按对否定零假设所提供的证据强弱来排序,比方说,T值越大,否定零假设的证据越强。零假设要足够确定,使得在它成立的前提下,可算出T的确切分布。这个分布的根据就包含在试验的具体设计中。

3). 若在试验中得到T值为T0,则大于等于T0的一切T值,是比本实验所得值更倾向于否定零假设的全部情况(因为在第2点中说明了,T值越大,否定零假设的证据越强)

        计算概率P(TT0|零假设成立)=p.

p值终于出现了!p值的本质是一个条件概率,也就是之前那篇文章中提到的“在零假设成立的条件下,观察到比本次实验结果更极端的结果的概率”,而计算概率需要知道随机变量的分布。)

如果p值很小,则说明:在零假设成立时,极不容易得到大于等于T0T值,而现在居然得到了,因而是“零假设不对”的有力证据。因此,定义

        T0值的显著性水平=p

至于p要小到多少才能被认为是零假设不成立的充分证据,这不能给出公认的界限。是根据问题的具体性质及当事人的倾向性来决定的。如p0.010.01的显著性水平。通常讲显著性水平高是指这个概率值低。


2. 女士品茶试验

费歇尔通过两个实例来解释上面这些概念。其中一个便是著名的“女士品茶”试验。(甚至还有一本以此命名的介绍数理统计史的书)牛奶茶是茶与牛奶按一定比例混合得到的。在制作时有两种方法:先放牛奶后放茶(MT),先放茶后方牛奶(TM)。某女士声称她能鉴别MTTM,于是做一个实验来判断她所说的是否有根据。准备8杯牛奶茶,MTTM各半,给这位女士喝,让她把MTTM分辨出来(先告诉她各有4杯)。以x记录她说对的杯数。则只能取864205个值。

立下零假设“该女士没有辨别MTTM的能力”。这时,她从给她8杯中挑出4杯(作为MT)的方法,与随机地从8杯中挑出4杯是一样的。由此可以计算出,在零假设成立时,x的分布为

x

8

6

4

2

0

概率

1/70

16/70

36/70

16/70

1/70

  • P(x=0) = (4/8)*(3/7)*(2/6)*(1/5) = 1/70 (表示一次都没说对,例如将所有的MT说成了TM)
  • P(x=2) = 4*(4/8)*(3/7)*(2/6)*(4/5) = 16/70(表示在选出来的4杯中只有一次说对了,那么剩下的4杯肯定也有一次是对的,因此x=2)
  • P(x=4) = 6*(4/8)*(3/7)*(4/6)*(3/5) = 36/70(表示在选出来的4杯中有两次说对了,那么剩下的4杯肯定也有两次是对的,因此x=4,前面的6是4选2得到的组合数)
  • P(x=6) = P(x=2) = 16/70(表示在选出来的4杯中有三次说对了,那么剩下的4杯肯定也有三次是对的,因此x=6)
  • P(x=8) = P(x=0) = 1/70(全部说对与全部说错一样难)

取检验统计量T=xT值越大,越能说明该女士有分辨力而更倾向于否定零假设。设T=8,即女士全说对了,这时的显著性水平为

        p = P(T8) = 1/70 0.014

显著性很高,有理由认为可否定零假设。

 

3. 分析结果

当然,上面的试验结果也随实验者的看法而异,也可能他不认为这个结果已提供了强有力的证据。这时他可加大力度,例如把8杯改为12杯(MTTM6)。这时在零假设下,T=12的概率只有1/924 0.0011。如果某女士试验结果为T = 12 则否定零假设的证据就有力得多。

仍回到费歇尔的试验。若T = 6,成绩也很可观,但此时的显著性水平为

        p = P(T6) = 1/70 + 16/70 = 17/70 0.244

也就是说,仅凭瞎碰(或一个根本就没有任何分辨能力的人),也有近乎1/4的机会取得比该女士一样或更好的成绩(这里利用了没有发生的T=8的可能性,而不仅仅是当前的试验结果T=6带来的信息),因此这没有为否定零假设提供有力的根据。

费歇尔强调零假设不能被证明。如此例得T=6,我们不能否定零假设,但也不说明零假设就对了。因为该女士可能有一定程度(但非100%)的鉴别力,例如判对率为2/3,那也可以很好地解释T=6这个试验结果。

本例中的设计部分有两个方面:一是保证随机性,即MTTM从杯子等外表上不能有差异,且是按随机次序(如通过摸球)把这8杯依次交给该女士。这个作法保证了费歇尔的上述第2条原则:在零假设成立的前提下,可计算出检验统计量的确切分布。

另一反面是杯数及预定MTTM的数目。比方说,在预定8杯时,是否将TMMT各取一半为好,还是其他数目,如MT2杯,TM6杯?还有,是告诉该女士MTTM各有多少杯还是不告诉的好?

对于杯数,当然是多一些试验的灵敏度更高,但有一个代价问题(人力物力时间)。这个问题在本例中表现的不明显,但如果在费用昂贵且安排试验费时费人的场合,就是一个不得不考虑的因素了。至于MTTM的数目,肯定是各半为好。如在8杯的情况,若MT2杯,则该女士全说对时,显著性水平也只有1/28,远不如取4杯时的1/70好。关于是否把MT的杯数告诉该女士的问题,则是不告诉时灵敏度更高。如在8杯而MT4杯的场合,若不告诉该女士,则她由于瞎碰而全碰对的机会只有1/128,比1/70的显著性高,仅是这样一个简单例子就有如此多的考虑,在复杂的情况下当然更是如此,这说明试验设计的重要性。


 

摘自《数理统计学简史》,陈希孺,湖南教育出版社,2002

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有