GWAS中的多重假设检验

标签:
gwasbonferronifdr置换检验permutation |
分类: GWAS |
在多重假设检验中,我们知道需要对错误率进行控制,我尽量简单说明原因:统计学中,我们作假设检验的前提是认为小概率事件在一次试验中不会发生。比如我们经常把显著性水平α设为0.05,也就是说,我们认为概率小于0.05的事件在一次试验中不会发生。但如果我们试验非常多次,那么小概率事件就极有可能发生了,所以在多重假设检验中,我们如果仍然把显著性水平设为0.05,那么假阳性事件会大大增多。
在GWAS分析中,我们对同一组表型数据,每一个分子标记(Marker,包括SNP或者SSR等等),都会作一次假设,即认为这个Marker会影响这个表型。这是典型的多重假设检验问题,所以需要对假阳性率进行控制。
由此在多重假设检验中提出了FDR,即错误发现率。对多重假设检验中的错误发现率的控制方法很多,在GWAS分析中,运用得最广泛的就是Bonferroni校正了,其原理是将原显著性水平(α)校正为α/M,M为检验的次数,在GWAS分析中为Marker数。
但是Bonferroni校正的前提是每次试验都是独立的。而在GWAS分析中,由于Marker之间存在连锁不平衡(LD),所以不符合Bonferroni校正的前提。在早期的GWAS研究中,由于技术水平限制,Marker数比较少,Marker在基因组中的物理距离一般比较远,LD水平不是很高,所以用Bonferroni校正也是可取的。但随着高通量测序技术的发展,开发的SNP标记密度非常高,由于SNP之间的强连锁,使得Bonferroni校正变得过于保守。
下图来源于一个真实GWAS项目,即Q-Q图。在GWAS分析中,我们用Q-Q图来检验模型的可靠性。纵坐标为观测值(-log10P),横坐标为期望值。理想模型中,观测值和期望值是相等的,只有在右上角有一些点,是观测值大于期望值(与表型关联的标记)。但在我们的项目中,发现观测值整体是小于期望值的(下图右),所以我们怀疑是Bonferroni校正引起的。于是,我们按照基因组平均的LD-decay水平,划窗口选择了部分标记来作Q-Q图(下图左),发现观测值基本等于期望值,这证实了我们的猜测。
http://s15/bmiddle/0065S4ZTzy6T4f7kiJgae&690
Bonferroni校正的过于保守
既然Bonferroni校正在高密度标记的GWAS分析中,显得过于保守,我们应该怎样控制错误率呢?置换检验(Permutation Test)被称作GWAS分析中错误率控制的黄金标准(the gold standard),其大概原理为:将基因型和表型的对应关系随机打乱,用打乱后的数据做比如1000次GWAS分析,记录每一次最小的P值,将这些最小P值从小到大排序,如果我们选择显著性水平α=0.5,则将排序P值的0.05分位数作为矫正后的显著性水平。显而易见,这样的计算量非常大,对于样本数量和Marker数都非常多的GWAS分析来说,在短时间内几乎不可能实现。
有没有效果和置换检验一样,却计算量小,容易实现的方法呢?当然有。其中一种有效的方法是计算近似的独立试验次数。限于篇幅,这一部分将在下一篇博客中和大家分享。
参考:
wikipedia: https://en.wikipedia.org/wiki/Multiple_comparisons_problem