GWAS假阳性控制方法之计算独立试验次数——对Bonferroni校正的改进

标签:
gwas多重假设检验bonferronipermutationld |
分类: GWAS |
在上篇博文中提到,由于Marker之间存在LD,所以用Bonferroni校正对GWAS结果的错误发现率进行控制过于保守。而置换检验由于计算量太大,很难操作。既然Bonferroni校正的前提是每次试验独立,那么我们可不可以计算等效的独立SNP个数呢?
上篇博文中重画Q-Q图的思想就是一种方法,根据全基因组的LD-decay水平将基因组划分成若干block,block的个数就是等效的独立试验次数,那么校正后的显著水平应该为α/block数。但是这种方法过于粗糙,因为基因组局部的LD水平差异很大。下面介绍几种引用率较高的方法。
1. sampleM(Gao, Starmer et al. 2008)
该方法先建立任意两SNP之间的CLD(composite LD)矩阵,然后对该矩阵进行主成分分析,将贡献率达到99.5%的主成分个数作为等效的独立试验次数。具体步骤如下:
a. 计算CLD矩阵,直接用R语言的cor()函数,注意基因型编码方式:homo-alt-ref用0表示,het用1表示,homo-as-ref用2表示;
b. 计算特征值,直接用R语言的eigen()函数;
c. 将特征值从大到小累加到特征值总和的99.5%的特征值个数记为等效独立试验次数Meff;
d. 矫正后的显著性水平α’=α/Meff;
需要注意的是,该方法不能有基因型缺失,所以要先进行基因型缺失推断。且Marker数量不能大于1,000,对于Marker数大于1,000的数据,需要对染色体进行划分,单独计算每个block的Meff,然后将所有Meff求和,作为最后的等效独立试验次数。
从图1模拟的结果可以看出,SampleM和置换检验(Permutation)的结果相近,Bonferroni校正过于保守。
http://s5/mw690/0065S4ZTzy6ToDkUQcsf4&690
图1 SampleM模拟结果与其他方法比较
2.
Keff
该方法与sampleM原理相似,只是计算LD的方法不一样。在Gao的一个Report(Gao, Becker et al. 2010)中对这两种方法进行了模拟比较,发现sampleM效果更好。
3. SLIDE(B, HM et al. 2009)
该方法与前两种方法的主要不同用图2表示,可以当作是对前两种方法的改进。由于在大量Marker时使用sampleM需要划窗口,这就使得窗口之间的相关性没有考虑。而SLIDE为滑动窗口,使得其忽略的窗口之间的关联比较少。如图2,A是所有Marker的相关性,B为划窗口考虑的相关性(黑色为忽略的部分),C为滑动窗口考虑的相关性。
该软件可以在http://slide.cs.ucla.edu网站下载使用。
http://s13/bmiddle/0065S4ZTzy6ToDuzuUs8c&690
图2 SLIDE方法的优点
参考文献
5. Tasan, M., G. Musso, T. Hao, M.
Vidal, C. A. MacRae and F. P. Roth (2015). "Selecting causal genes
from genome-wide association studies via functionally coherent
subnetworks." Nat Methods 12(2):
154-159.