加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

GWAS假阳性控制方法之计算独立试验次数——对Bonferroni校正的改进

(2015-06-27 19:31:11)
标签:

gwas

多重假设检验

bonferroni

permutation

ld

分类: GWAS

上篇博文中提到,由于Marker之间存在LD,所以用Bonferroni校正对GWAS结果的错误发现率进行控制过于保守。而置换检验由于计算量太大,很难操作。既然Bonferroni校正的前提是每次试验独立,那么我们可不可以计算等效的独立SNP个数呢?

上篇博文中重画Q-Q图的思想就是一种方法,根据全基因组的LD-decay水平将基因组划分成若干block,block的个数就是等效的独立试验次数,那么校正后的显著水平应该为α/block数。但是这种方法过于粗糙,因为基因组局部的LD水平差异很大。下面介绍几种引用率较高的方法。

1. sampleM(Gao, Starmer et al. 2008)

该方法先建立任意两SNP之间的CLD(composite LD)矩阵,然后对该矩阵进行主成分分析,将贡献率达到99.5%的主成分个数作为等效的独立试验次数。具体步骤如下:

a. 计算CLD矩阵,直接用R语言的cor()函数,注意基因型编码方式:homo-alt-ref用0表示,het用1表示,homo-as-ref用2表示;

b. 计算特征值,直接用R语言的eigen()函数;

c. 将特征值从大到小累加到特征值总和的99.5%的特征值个数记为等效独立试验次数Meff

d. 矫正后的显著性水平α’=α/Meff

需要注意的是,该方法不能有基因型缺失,所以要先进行基因型缺失推断。且Marker数量不能大于1,000,对于Marker数大于1,000的数据,需要对染色体进行划分,单独计算每个block的Meff,然后将所有Meff求和,作为最后的等效独立试验次数。

从图1模拟的结果可以看出,SampleM和置换检验(Permutation)的结果相近,Bonferroni校正过于保守。

http://s5/mw690/0065S4ZTzy6ToDkUQcsf4&690

图1 SampleM模拟结果与其他方法比较

 

2. Keff (Moskvina and Schmidt 2008)

该方法与sampleM原理相似,只是计算LD的方法不一样。在Gao的一个Report(Gao, Becker et al. 2010)中对这两种方法进行了模拟比较,发现sampleM效果更好。

3. SLIDE(B, HM et al. 2009)

该方法与前两种方法的主要不同用图2表示,可以当作是对前两种方法的改进。由于在大量Marker时使用sampleM需要划窗口,这就使得窗口之间的相关性没有考虑。而SLIDE为滑动窗口,使得其忽略的窗口之间的关联比较少。如图2,A是所有Marker的相关性,B为划窗口考虑的相关性(黑色为忽略的部分),C为滑动窗口考虑的相关性。

该软件可以在http://slide.cs.ucla.edu网站下载使用。

http://s13/bmiddle/0065S4ZTzy6ToDuzuUs8c&690

图2 SLIDE方法的优点

    怎样增加GWASpower的同时降低假阳性率,科学家们长期以来做了很多努力,上面提到的3个方法就是其中的一个方向。刚刚发表的一种方法(Tasan, Musso et al. 2015),就成功的在人类复杂疾病中得到了成功应用。该方法的前提假设是影响同一个性状的基因,在功能或者蛋白质结构域等方面存在相似的地方。然后构建一个所有人类基因的关系数据库,包括代谢通路、功能、蛋白质结构域等方面的关系。最后将GWAS结果中,和显著Marker连锁的所有基因通过这个关系数据库进行富集。这个方法为其他物种的GWAS分析提供了一个很好的思路。

 

参考文献

1. B, H., K. HM and E. E (2009). "Rapid and Accurate Multiple Testing Correction and Power Estimation for Millions of Correlated Markers." PLoS Genet 5(4): e1000456.

2. Gao, X., L. C. Becker, D. M. Becker, J. D. Starmer and M. A. Province (2010). "Avoiding the high Bonferroni penalty in genome-wide association studies." Genet Epidemiol 34(1): 100-105.

3. Gao, X., J. Starmer and E. R. Martin (2008). "A multiple testing correction method for genetic association studies using correlated single nucleotide polymorphisms." Genet Epidemiol 32(4): 361-369.

4. Moskvina, V. and K. M. Schmidt (2008). "On multiple-testing correction in genome-wide association studies." Genet Epidemiol 32(6): 567-573.

5. Tasan, M., G. Musso, T. Hao, M. Vidal, C. A. MacRae and F. P. Roth (2015). "Selecting causal genes from genome-wide association studies via functionally coherent subnetworks." Nat Methods 12(2): 154-159.

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有