加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

[转载]p值的那些事

(2013-02-28 18:43:53)
标签:

转载

分类: 生活在神秘的世界里
原文地址:p值的那些事作者:牛牛龙
p值与“犯错概率”不是一码事。

p值是由Fisher提出的,其使用方法被称为“显著性检验(Significance test)”:首先,实验者要提出一个“零假设(Null Hypothesis)”,这个假设往往是要攻击或者反对的结论;然后,规定一个“显著程度(Significance Level)”,Fisher曾经将之规定0.05,因为20次出现1次已经算得上“古怪(odd)”的了(但是,Fisher似乎并没有给出0.05的严格数学意义。而且,Fisher还提到,如果0.05不够显著,还可以规定0.02或者0.01。因此,这个“显著程度”是人为规定的,实验者根据自己的需求规定什么才算做“古怪的”。我自己理解这个“显著程度”就是我们认定的小概率事件发生的概率);接着,对一组特定的实验数据,计算与这组数据以及比这组数据更加极端情况的概率,称之为P值(P value);之后,将P数值与0.05比大小;最后,如果p < 0.05,下结论“在零假设下,要么我们观察到了小概率事件,要么我们的理论的错误的”,如果 p > 0.05,下结论“我们没有充足的证据拒绝零假设”。

从以上的过程中,我们可以得到以下结论:
1. Fisher在求解p值的时候,根本就没有提到“备则假设(Alternative Hypothesis)”。整个分析流程中,都在攻击零假设这个“纸老虎”;
2.  Fisher的哲学观点是“从特殊到一般,从个体到整体”的归纳推理方法(Inductive Inference),即从某一次特定的实验数据,估计整个群体的情况。
3. p值的大小反应了证据的强弱,即p值越小,证据越充分。此处的证据,我的理解是拒绝零假设的证据。因此,p值是可以相互比较的。

Neyman-Pearson提出的“假设检验(Hypothesis test)”则是另一个完全不同的方法(从哲学的角度上):首先,实验者必须提出至少两个假设,一个是“零假设”,另一个是“备则假设”;其次,实验者要规定“犯一类错误概率(Type I Error Rate, alpha)”,表示的意思是“零假设为真,却惨遭拒绝(弃真)”。同时,实验者也会犯第二类错误,即“零假设为假,却侥幸地接受(纳伪)”。这里我们也可以看出,之所以会犯错,因为实验者要自己衡量和评估结果;同时,犯错也有概率,是由于多次取样的结果。之后,构建统计量,计算统计量是否落入拒绝域内(当然,也可以计算p值,比较p值与alpha的大小,但p值大小没有程度上的意义。);如果落入拒绝域,得到结论“拒绝零假设,接受备则假设”,如果没有落入拒绝域,得到结论“接受备则假设”。到这里为止,我们有理性地作出了选择,这个选择在长期的取样过程中,可能会犯两类错误(但我们可以忍受)。

从Neyman-Pearson的“假设检验”方法中,我们可以得到:
1. 这种方法的哲学理念与fisher完全不同。在使用这种方法时,必须事先规定两种假设。值得注意的是,在假设检验过程中,我们不是去攻击“零假设”;反而,是在做出选择,根据自己的忍耐限度(犯第一类错误的概率),选择H0或者是H1。因此,这种方法用到了人为的经验估计,得出的结果也只是给实验者提供建议,方法本身不具有选择性,最终做出选择是人
2. 这种方法的骨子里,蕴涵的是“长期、多次抽样”的意思。对一组实验数据进行“假设检验”,实际上是提示实验者在可以预见的一段时期内,多次重复实验中犯两类错误的概率。所以这种方法在质量控制领域内,有很广泛的用途。有人会问:为什么会犯错。这是因为我们在使用这种方法后,作出了选择(当然,要承认是方法本身提供了我们选择的依据,但不能忘了,最开始是由实验者规定了“犯第一类错误概率”)。
3. 对于这两类错误,首先要控制的是“第一类错误”。我自己的理解是:1 出于谨慎的态度,备则假设往往是一种特殊情况。而原假设则是正常的、理所当然的。2 假设检验过程中需要构建一个“统计量”,这个统计量中用到了对总体的一个“估计”,这个“估计”的使用需要假定零假设成立。比如对于一个正态总体的取样,在方差已知,检验均值时,构建了统计量U,用到了“样本均值”是“总体均值”的无偏估计。在使用统计量U时,我们要承认零假设,即样本取自该总体。
4. 假设检验过程中,也可以通过比较p值与alpha的大小。但是,p值的大小不能表示接受或者拒绝零假设的程度,更不能表示零假设正确的概率。在最后下结论时,我们只讨论接受或者拒绝零假设。
5. Neyman-Pearson的方法中有一个引人注目的变量,即“犯第二类错误的概率”。而1-beta是“拒绝错误零假设”的概率,称为“统计强度(statistical power)。这在Fisher的体系中,是不存在的。


Null hypothesis (H0) is true Null hypothesis (H0) is false
Reject null hypothesis Type I error
False positive
alpha
Correct outcome
True positive
power=1-beta
Fail to reject null hypothesis Correct outcome
True negative
Type II error
False negative
beta

Condition
(as determined by "Gold standard")
Condition Positive Condition Negative
Test
Outcome
Test
Outcome
Positive
True Positive False Positive
(Type I error)
Positive predictive value =
Σ True Positive
Σ Test Outcome Positive
Test
Outcome
Negative
False Negative
(Type II error)
True Negative Negative predictive value =
Σ True Negative
Σ Test Outcome Negative
Sensitivity =
Σ True Positive
Σ Condition Positive
Specificity =
Σ True Negative
Σ Condition Negative




参考文献:
1 Raymond Hubbard and Bayarri MJ: P Values are not Error Probabilities
2 wiki

0

  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有