GWAS假阳性控制方法之计算独立试验次数——对Bonferroni校正的改进_fujun_BioInfo

http://blog.sina.com.cn/u/5583567597

首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

GWAS假阳性控制方法之计算独立试验次数——对Bonferroni校正的改进

(2015-06-27 19:31:11)

标签：

gwas

多重假设检验

bonferroni

permutation

ld

分类： GWAS

在上篇博文中提到，由于Marker之间存在LD，所以用Bonferroni校正对GWAS结果的错误发现率进行控制过于保守。而置换检验由于计算量太大，很难操作。既然Bonferroni校正的前提是每次试验独立，那么我们可不可以计算等效的独立SNP个数呢？

上篇博文中重画Q-Q图的思想就是一种方法，根据全基因组的LD-decay水平将基因组划分成若干block，block的个数就是等效的独立试验次数，那么校正后的显著水平应该为α/block数。但是这种方法过于粗糙，因为基因组局部的LD水平差异很大。下面介绍几种引用率较高的方法。

1. sampleM(Gao, Starmer et al. 2008)

该方法先建立任意两SNP之间的CLD（composite LD）矩阵，然后对该矩阵进行主成分分析，将贡献率达到99.5%的主成分个数作为等效的独立试验次数。具体步骤如下：

a. 计算CLD矩阵，直接用R语言的cor()函数，注意基因型编码方式：homo-alt-ref用0表示，het用1表示，homo-as-ref用2表示；

b. 计算特征值，直接用R语言的eigen()函数；

c. 将特征值从大到小累加到特征值总和的99.5%的特征值个数记为等效独立试验次数M_eff；

d. 矫正后的显著性水平α’=α/M_eff；

需要注意的是，该方法不能有基因型缺失，所以要先进行基因型缺失推断。且Marker数量不能大于1,000，对于Marker数大于1,000的数据，需要对染色体进行划分，单独计算每个block的M_eff，然后将所有M_eff求和，作为最后的等效独立试验次数。

从图1模拟的结果可以看出，SampleM和置换检验（Permutation）的结果相近，Bonferroni校正过于保守。

http://s5/mw690/0065S4ZTzy6ToDkUQcsf4&690

图1 SampleM模拟结果与其他方法比较

2. K_eff(Moskvina and Schmidt 2008)

该方法与sampleM原理相似，只是计算LD的方法不一样。在Gao的一个Report(Gao, Becker et al. 2010)中对这两种方法进行了模拟比较，发现sampleM效果更好。

3. SLIDE(B, HM et al. 2009)

该方法与前两种方法的主要不同用图2表示，可以当作是对前两种方法的改进。由于在大量Marker时使用sampleM需要划窗口，这就使得窗口之间的相关性没有考虑。而SLIDE为滑动窗口，使得其忽略的窗口之间的关联比较少。如图2，A是所有Marker的相关性，B为划窗口考虑的相关性（黑色为忽略的部分），C为滑动窗口考虑的相关性。

该软件可以在http://slide.cs.ucla.edu网站下载使用。

http://s13/bmiddle/0065S4ZTzy6ToDuzuUs8c&690

图2 SLIDE方法的优点

怎样增加GWAS的power的同时降低假阳性率，科学家们长期以来做了很多努力，上面提到的3个方法就是其中的一个方向。刚刚发表的一种方法(Tasan, Musso et al. 2015)，就成功的在人类复杂疾病中得到了成功应用。该方法的前提假设是影响同一个性状的基因，在功能或者蛋白质结构域等方面存在相似的地方。然后构建一个所有人类基因的关系数据库，包括代谢通路、功能、蛋白质结构域等方面的关系。最后将GWAS结果中，和显著Marker连锁的所有基因通过这个关系数据库进行富集。这个方法为其他物种的GWAS分析提供了一个很好的思路。

参考文献

1. B, H., K. HM and E. E (2009). "Rapid and Accurate Multiple Testing Correction and Power Estimation for Millions of Correlated Markers." PLoS Genet 5(4): e1000456.

2. Gao, X., L. C. Becker, D. M. Becker, J. D. Starmer and M. A. Province (2010). "Avoiding the high Bonferroni penalty in genome-wide association studies." Genet Epidemiol 34(1): 100-105.

3. Gao, X., J. Starmer and E. R. Martin (2008). "A multiple testing correction method for genetic association studies using correlated single nucleotide polymorphisms." Genet Epidemiol 32(4): 361-369.

4. Moskvina, V. and K. M. Schmidt (2008). "On multiple-testing correction in genome-wide association studies." Genet Epidemiol 32(6): 567-573.

5. Tasan, M., G. Musso, T. Hao, M. Vidal, C. A. MacRae and F. P. Roth (2015). "Selecting causal genes from genome-wide association studies via functionally coherent subnetworks." Nat Methods 12(2): 154-159.

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report

前一篇：GWAS中的多重假设检验

后一篇：GWAS的困境——Common or Rare Variants?

新浪BLOG意见反馈留言板　欢迎批评指正