[转载]p值的那些事
(2013-02-28 18:43:53)
标签:
转载 |
分类: 生活在神秘的世界里 |
p值与“犯错概率”不是一码事。
p值是由Fisher提出的,其使用方法被称为“显著性检验(Significance test)”:首先,实验者要提出一个“零假设(Null
Hypothesis)”,这个假设往往是要攻击或者反对的结论;然后,规定一个“显著程度(Significance
Level)”,Fisher曾经将之规定0.05,因为20次出现1次已经算得上“古怪(odd)”的了(但是,Fisher似乎并没有给出0.05的严格数学意义。而且,Fisher还提到,如果0.05不够显著,还可以规定0.02或者0.01。因此,这个“显著程度”是人为规定的,实验者根据自己的需求规定什么才算做“古怪的”。我自己理解这个“显著程度”就是我们认定的小概率事件发生的概率);接着,对一组特定的实验数据,计算与这组数据以及比这组数据更加极端情况的概率,称之为P值(P
value);之后,将P数值与0.05比大小;最后,如果p <
0.05,下结论“在零假设下,要么我们观察到了小概率事件,要么我们的理论的错误的”,如果 p >
0.05,下结论“我们没有充足的证据拒绝零假设”。
从以上的过程中,我们可以得到以下结论:
1. Fisher在求解p值的时候,根本就没有提到“备则假设(Alternative
Hypothesis)”。整个分析流程中,都在攻击零假设这个“纸老虎”;
2.
Fisher的哲学观点是“从特殊到一般,从个体到整体”的归纳推理方法(Inductive
Inference),即从某一次特定的实验数据,估计整个群体的情况。
3.
p值的大小反应了证据的强弱,即p值越小,证据越充分。此处的证据,我的理解是拒绝零假设的证据。因此,p值是可以相互比较的。
Neyman-Pearson提出的“假设检验(Hypothesis
test)”则是另一个完全不同的方法(从哲学的角度上):首先,实验者必须提出至少两个假设,一个是“零假设”,另一个是“备则假设”;其次,实验者要规定“犯一类错误概率(Type
I Error Rate,
alpha)”,表示的意思是“零假设为真,却惨遭拒绝(弃真)”。同时,实验者也会犯第二类错误,即“零假设为假,却侥幸地接受(纳伪)”。这里我们也可以看出,之所以会犯错,因为实验者要自己衡量和评估结果;同时,犯错也有概率,是由于多次取样的结果。之后,构建统计量,计算统计量是否落入拒绝域内(当然,也可以计算p值,比较p值与alpha的大小,但p值大小没有程度上的意义。);如果落入拒绝域,得到结论“拒绝零假设,接受备则假设”,如果没有落入拒绝域,得到结论“接受备则假设”。到这里为止,我们有理性地作出了选择,这个选择在长期的取样过程中,可能会犯两类错误(但我们可以忍受)。
从Neyman-Pearson的“假设检验”方法中,我们可以得到:
1.
这种方法的哲学理念与fisher完全不同。在使用这种方法时,必须事先规定两种假设。值得注意的是,在假设检验过程中,我们不是去攻击“零假设”;反而,是在做出选择,根据自己的忍耐限度(犯第一类错误的概率),选择H0或者是H1。因此,这种方法用到了人为的经验估计,得出的结果也只是给实验者提供建议,方法本身不具有选择性,最终做出选择是人。
2. 这种方法的骨子里,蕴涵的是“长期、多次抽样”的意思。对一组实验数据进行“假设检验”,实际上是提示实验者在可以预见的一段时期内,多次重复实验中犯两类错误的概率。所以这种方法在质量控制领域内,有很广泛的用途。有人会问:为什么会犯错。这是因为我们在使用这种方法后,作出了选择(当然,要承认是方法本身提供了我们选择的依据,但不能忘了,最开始是由实验者规定了“犯第一类错误概率”)。
3. 对于这两类错误,首先要控制的是“第一类错误”。我自己的理解是:1
出于谨慎的态度,备则假设往往是一种特殊情况。而原假设则是正常的、理所当然的。2
假设检验过程中需要构建一个“统计量”,这个统计量中用到了对总体的一个“估计”,这个“估计”的使用需要假定零假设成立。比如对于一个正态总体的取样,在方差已知,检验均值时,构建了统计量U,用到了“样本均值”是“总体均值”的无偏估计。在使用统计量U时,我们要承认零假设,即样本取自该总体。
4.
假设检验过程中,也可以通过比较p值与alpha的大小。但是,p值的大小不能表示接受或者拒绝零假设的程度,更不能表示零假设正确的概率。在最后下结论时,我们只讨论接受或者拒绝零假设。
5. Neyman-Pearson的方法中有一个引人注目的变量,即“犯第二类错误的概率”。而1-beta是“拒绝错误零假设”的概率,称为“统计强度(statistical
power)。这在Fisher的体系中,是不存在的。
Null hypothesis (H0) is true | Null hypothesis (H0) is false | |
---|---|---|
Reject null hypothesis |
Type False positive alpha |
Correct outcome True positive power=1-beta |
Fail to reject null hypothesis |
Correct outcome True negative |
Type False negative beta |
Condition (as determined by "Gold standard") |
||||
Condition Positive | Condition Negative | |||
Test Outcome |
Test Outcome Positive |
True Positive |
False
Positive (Type I error) |
Positive predictive
value Σ True Positive
Σ
|
Test Outcome Negative |
False
Negative (Type II error) |
True Negative |
Negative predictive
value Σ True Negative
Σ
|
|
Sensitivity Σ True Positive
Σ
|
Specificity Σ True Negative
Σ
|
参考文献:
1 Raymond Hubbard and Bayarri MJ: P Values are not Error
Probabilities
2 wiki