两种分布-bootstrap和permutation
(2013-11-13 09:43:42)
标签:
permutationbootstrap教育 |
分类: 学术生涯 |
早上被惊醒,突然感觉到昨天被自己并行化的bootsrap过程(snow包实现),存在着致命的问题:bootstrap的输出得到的结论是自己真正想要的吗?将从实际观测中得到的统计量的值放到resampling得到的经验分布(empirical
distribution)中去观察其位置,得到的是什么结论呢?细思之,在这个统计检验中的原假设应该是“统计量的观测值与bootstrap得到的经验分布的均值没有显著性差异”,我期望得到的结果是显著性P值大于预设检验水准。在这一过程中,要检验该经验分布的分布类型,轻率采用均值+/-标准差的表示方法不科学。【如此清晰地把思路捋顺了,心里也踏实了好多,也不是什么致命的“问题”,如此进行检验也是合乎统计学检验思想的】
那么,如果采用permutation呢?又会是什么情况来?标签重排是将组间的label打乱后重新分配来拟合某一统计量/或指标的经验分布/背景分布的一种方法。但是在我的研究里,如果选用permutation的话,有一个问题搞不清楚:将人群重排后,统计量的实际情况(也就是说,两个随机样本中统计量的实际情况)应该是什么样的呢(对应于原假设)?它会服从什么分布呢?这是值得深入考虑的问题。两个随机样本间的差异统计量的经验分布的情况,如果permutation的结果偏离该经验分布的均值,说明统计量的实际观测是有异于随机情况的,即不认为掺入了随机情况的影响。这也是科学的。
P.S.如此看来,早上是虚惊一场了。考虑同时进行两种重抽样过程,来完成检验。下午要参会报名,怕是耽误了并行的时间了。CHEER UP :-)
那么,如果采用permutation呢?又会是什么情况来?标签重排是将组间的label打乱后重新分配来拟合某一统计量/或指标的经验分布/背景分布的一种方法。但是在我的研究里,如果选用permutation的话,有一个问题搞不清楚:将人群重排后,统计量的实际情况(也就是说,两个随机样本中统计量的实际情况)应该是什么样的呢(对应于原假设)?它会服从什么分布呢?这是值得深入考虑的问题。两个随机样本间的差异统计量的经验分布的情况,如果permutation的结果偏离该经验分布的均值,说明统计量的实际观测是有异于随机情况的,即不认为掺入了随机情况的影响。这也是科学的。
P.S.如此看来,早上是虚惊一场了。考虑同时进行两种重抽样过程,来完成检验。下午要参会报名,怕是耽误了并行的时间了。CHEER UP :-)