LD杂谈

分类: bioinformatics |
LD衰减距离
实际上,LD衰减的速度在不同物种间或同物种的不同亚群体间,往往差异非常巨大。所以,通常会使用1个标准——“LD衰减距离”来描述LD衰减速度的快慢。
LD衰减距离通常指的是:当平均LD系数衰减到一定大小的时候,对应的物理距离。
“一定大小”是这个定义的关键点,但没有特别统一的标准,在不同文章中标准不同。常见的标准包括:
a)LD系数降低到最大值的一半;
b)LD系数降低到0.5以下;
c)LD系数降低到0.1以下;
d)LD系数降低到基线水平(但注意,不同材料的基线值是不同的。比如图3黄瓜群体的基线大概是0.1)。
所以,下次你在文章中看到“LDdecay distance is XXkb”的时候,别忘了看看作者使用的标准是什么。
LD衰减会受什么的影响?
如第一个图所示, LD系数衰退速度会受到不同因素的影响而有所不同。常见的因素包括:
1)物种类型
LD存在的本质是两个位点的连锁遗传导致的相关性。但这种相关性理论上会随着世代的增加、重组次数的增加而不断下降。所以,那些繁殖力强、时代间隔短的物种(例如,昆虫),其LD衰减的速度是非常快的。例如在家蚕和野蚕群体中,LD系数下降到最大值的1/2仅仅需要46bp和7bp的距离。
2)群体类型
相同物种的不同群体,由于其遗传背景不同,LD衰减速度也存在很大的差异。驯化选择,会导致群体遗传多样性下降,位点间的相关性(连锁程度)加强。所以,通常驯化程度越高,选择强度越大的群体,LD衰减速度是最慢的。例如,栽培稻比野生稻通常更大的LD衰减距离。类似的,自然选择、遗传漂变导致的群体遗传多样性下降,也会减慢LD衰减的速度。
3)在染色体的位置
染色体不同区域的LD衰减距离而是不同的。通常着丝粒区更易重组,所以LD衰减更慢。而基因组上那些受选择的区域相比普通的区域,LD衰减速度也是更慢的。
LD衰减距离的应用
LD衰减速度,在群体遗传分析中本身是对群体特性的评估,与群体类型的特性(自然群体还是驯化群体,选择强度大小)是相关的。但在其他研究中还有更多的应用价值。
基于分子标记(例如,SNP芯片,GBS测序)的GWAS分析,其实并没有检测到功能突变,本质就是利用标记和功能突变的相关性(LD关系),来检测与性状相关的功能突变的位置。一般而言,LD系数大于0.8就是强相关。如果LD系数小于0.1,则可以认为没有相关性。如果LD衰减到0.1这么大的区间内都没有标记覆盖的话,即使这个区间有一个效应很强的功能突变,也是检测不到关联信号的。所以,通常可以通过比较LD衰减(到0.1)距离和标记间的平均距离,来判断标记是否对全基因组有足够的覆盖度。
而如果GWAS检测到显著关联的区间后,则可以通过进一步绘制局部的LD单体型块图,来进一步判断显著相关的SNP和目标基因间是否存在强LD关系。这个图形我们下一篇文章会介绍。
再提一个应用的例子。在进行STRUCTURE分析的时候理论上必须输入不相关的位点。那么,就可以通过预估LD衰减到0.1的距离,来判断标记间的距离必须大于多少才能保证标记间不具相关性(LD<0.1)。
LD衰减图的绘制,实际上有两个步骤:
1)计算marker间两两的LD系数大小
这个可以使用haploview软件完成。计算的时候,只要设定一个关键的参数:区间大小。例如设定为5Mb,那么软件就会计算基因组上所有距离<5Mb的两两位点间的LD系数。实际上这个参数设定更大也没有意义,一般情况下位点间的相关性不会延伸到大于5Mb这么远的距离。
2)绘图
将LD系数按照对应的两个marker间的距离进行分类,例如:距离按照区间大0~5k,5k~10k,10k~15k…..分别分类。如果重测序的数据,SNP标记密度较大,这个分类区间可以设置小一些;如果是简化基因组数据,SNP标记较为稀疏,则分类区间可以适当加大。然后计算每种距离分类的LD系数的均值。最后在利用均值绘制曲线图就ok了。这一步的绘图,使用excel或R语言都可以轻松完成。