GWAS中的多重假设检验_fujun_BioInfo

http://blog.sina.com.cn/u/5583567597

首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

GWAS中的多重假设检验

(2015-06-15 00:08:56)

标签：

gwas

bonferroni

fdr

置换检验

permutation

分类： GWAS

在多重假设检验中，我们知道需要对错误率进行控制，我尽量简单说明原因：统计学中，我们作假设检验的前提是认为小概率事件在一次试验中不会发生。比如我们经常把显著性水平α设为0.05，也就是说，我们认为概率小于0.05的事件在一次试验中不会发生。但如果我们试验非常多次，那么小概率事件就极有可能发生了，所以在多重假设检验中，我们如果仍然把显著性水平设为0.05，那么假阳性事件会大大增多。

在GWAS分析中，我们对同一组表型数据，每一个分子标记（Marker，包括SNP或者SSR等等），都会作一次假设，即认为这个Marker会影响这个表型。这是典型的多重假设检验问题，所以需要对假阳性率进行控制。

由此在多重假设检验中提出了FDR，即错误发现率。对多重假设检验中的错误发现率的控制方法很多，在GWAS分析中，运用得最广泛的就是Bonferroni校正了，其原理是将原显著性水平（α）校正为α/M，M为检验的次数，在GWAS分析中为Marker数。

但是Bonferroni校正的前提是每次试验都是独立的。而在GWAS分析中，由于Marker之间存在连锁不平衡（LD），所以不符合Bonferroni校正的前提。在早期的GWAS研究中，由于技术水平限制，Marker数比较少，Marker在基因组中的物理距离一般比较远，LD水平不是很高，所以用Bonferroni校正也是可取的。但随着高通量测序技术的发展，开发的SNP标记密度非常高，由于SNP之间的强连锁，使得Bonferroni校正变得过于保守。

下图来源于一个真实GWAS项目，即Q-Q图。在GWAS分析中，我们用Q-Q图来检验模型的可靠性。纵坐标为观测值（-log₁₀P），横坐标为期望值。理想模型中，观测值和期望值是相等的，只有在右上角有一些点，是观测值大于期望值（与表型关联的标记）。但在我们的项目中，发现观测值整体是小于期望值的（下图右），所以我们怀疑是Bonferroni校正引起的。于是，我们按照基因组平均的LD-decay水平，划窗口选择了部分标记来作Q-Q图（下图左），发现观测值基本等于期望值，这证实了我们的猜测。

http://s15/bmiddle/0065S4ZTzy6T4f7kiJgae&690
Bonferroni校正的过于保守

既然Bonferroni校正在高密度标记的GWAS分析中，显得过于保守，我们应该怎样控制错误率呢？置换检验（Permutation Test）被称作GWAS分析中错误率控制的黄金标准（the gold standard），其大概原理为：将基因型和表型的对应关系随机打乱，用打乱后的数据做比如1000次GWAS分析，记录每一次最小的P值，将这些最小P值从小到大排序，如果我们选择显著性水平α=0.5，则将排序P值的0.05分位数作为矫正后的显著性水平。显而易见，这样的计算量非常大，对于样本数量和Marker数都非常多的GWAS分析来说，在短时间内几乎不可能实现。

有没有效果和置换检验一样，却计算量小，容易实现的方法呢？当然有。其中一种有效的方法是计算近似的独立试验次数。限于篇幅，这一部分将在下一篇博客中和大家分享。

参考：

Gondro, C., J. v. d. Werf and B. Hayes (2013). Genome-Wide Association Studies and Genomic Prediction. Springer Protocols.

Ziegler, A., I. R. Konig and J. R. Thompson (2008). "Biostatistical aspects of genome-wide association studies." Biom J 50(1): 8-28.

wikipedia: https://en.wikipedia.org/wiki/Multiple_comparisons_problem

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report

前一篇：Perl读取.ini风格配置文件之Config::IniFiles

后一篇：GWAS假阳性控制方法之计算独立试验次数——对Bonferroni校正的改进

新浪BLOG意见反馈留言板　欢迎批评指正