基因树和物种树的关系及建树方法
(2015-07-17 14:23:09)
标签:
股票 |
分类: 分子水平的自然选择 |
基因树和物种树的关系及建树方法
一 .基因树和物种树
1.
2. 二者关系
二
1.
同源DNA排序问题
2. 分子生物学数据类型(2种类型)
3. 数据转换
4.
建树方法(主要介绍四种方法)
非加权组平均法(UPGMA法)
邻接法(NJ法)
最大简约法(MP法)
最大似然法(ML法)
5. 几种建树方法的比较
一 基因树和物种树
gene tree
分子树(molecular tree): 依据分子数据构建的反映分子系统发育的树
物种树(species tree): 反映物种实际种系发生的树
系统发育树(Phylogenetic tree):
基因树与物种树的关系
在许多情况下这两者是一致的
如果在构建分子树是采用的是从其它物种水平转移而来的DNA序列,其结果与物种树大相径庭.
mtDNA在基因进化中是整个转移的 ,所以即使分析多个线立体基因,亦不能排除影响.
基因树与物种树存在两方面的区别:
这种情况一般发生在分支点非常接近的物种间。例如 人 猩猩和黑猩猩间的关系。通过增加DNA序列的长度并测定多个相互独立的基因片段,一般可以避免这种问题的发生。
二
1.同源DNA序列的排序(Alignment)问题
建立数据矩阵之前,必须获得具体的特征数据,所以要确定同源大分子相对应的位点,系统分析的前提是:不仅分析对象(大分子)是同源的,而且所比较的位点也是同源的,即分析对象的某一个位点必须能够确定可以追溯到共同祖先的同一位点.
对于编码蛋白质区域而言,由于蛋白质功能上的需要和三联体密码结构的限制,缺失/插入很少发生或发生后很容易被选择淘汰。因此,一般比较容易比对。
而在非编码区域,缺失/插入发生的频率可能很高。在这种情况下,比对过程变得十分复杂,一般必须借助于计算机。各种主要的DNA序列分析软件中,如PC/GENE,GCG和MacVector等,都有DNA排序功能。根据经验,如果DNA同源度低于70%—75%,就不容易获得确定的排序。Clustal w x
不同的排序代表了不同的进化途径。采用不同的比对,可能得到完全不同的系统树。
一种稳定的方法是,删除涉及缺失/插入的序列片段。但是,有时缺失/插入可能代表重要的进化信息,简单的删除并不可取。
建议,如果存在多种合理的排序,而不同的排序又得到不同的系统树,就应该再测定另一个独立的DNA序列,根据这段序列得到的系统树判断究竟哪个排序更为合理。如果无法得到新的序列,增加外源物种可能有助于问题的解决。
b
a
b1
b2
b3
b4
同源大分子排序,在比较时可能出现三种情况:
1.
2.
3.
有三个同源序列S1,S2和S3:
先比较S1和S2:
再比较
三者合在一起比较,以S3为参考序列:
2 分子生物学数据类型
即所获得的是2个或更多的离散的值,是赋予给某一个具体的运算分类单元(OUT)。
它可以进一步分为二态特征与多态特征。
前者如RE位点, RAPD数据等。
后者如核酸序列信息,就是某一位点核苷酸的碱基具有A,T,G或C四种可能。
相似性和距离数据
它并不是某一具体分类单元所具有,而是有彼此间的相似性或距离所表示出来的各分类单元间的相互关系,如免疫学方法,与DNA杂交所得到的只有OTU相似性信息。
3 数据转换
对DNA标记技术如RFLP, AFLP, RAPD及微卫星DNA技术和DNA序列测定技术所得到离散特征数据,用来重建系统发育树时也可基于一定的模型计算出遗传距离,然后利用距离法来重建系统发育树。
DNA序列数据
利用DNA序列数据计算遗传距离最简单的方法是计算p距离(p-distance),
计算式为:p= nd /n,
其中
nd 为核苷酸差异数。
p距离没有考虑同一个位点多个核苷酸间的替换状况,即将2个序列间核苷酸差异率作为彼此间的遗传距离。
若考虑核苷酸替换,必须利用核苷酸替换的数学模型对上述p距离进行校正,其中较简单的是Jukes-Cantor模型,它认为4种核苷酸A,T,C和G间的彼此替换速率相等。其遗传距离表达为:
p即为2个OTU序列间核苷酸的差异率。在实际应用中,Jukes-Cantor模型并不理想,但当d<=0.05时亦可对遗传距离作出很好的估计。
在DNA序列中,通常核苷酸转换的比率(A T 和G
C)要高于颠换的比率,特别是对动物mtDNA而言。在这种情况下,Kimura的二参数法可以用来很好地估计遗传距离(d)[11],
其中P和Q分别为序列中核苷酸转换和颠换的比率。
用这种方法来估计遗传距离时,其假定前提为核苷酸序列中A、T、C和G的比例相等,各占1/4。若比例不等,则需选择其它方法来估计遗传距离,其计算公式亦不同。因此,利用DNA序列信息计算遗传距离时需视实际情况选用一定的方法。
RFLP数据
将RFLP数据转换成遗传距离的方法较多[10]。常用的是先计算序列i和序列j限制性位点或片段的相似指数,然后再转换成遗传距离。
对相似指数(Sij),有
Sij=2mij/(mi+mj),
其中mi和mj分别为序列i和序列j总限制性位点或片段数,mij为序列i和序列j间共有位点或片段数。若使用的限制性内切酶其识别序列的核苷酸数(r)相同,则i和j间的遗传距离(dij)为:
RAPD数据
在RAPD研究中,获得的是某一扩增带在OTUs中有(通常记录为“1”)或无(通常记录为“0”)的一组信息。
利用这些信息计算
其中下标k为第k组内切酶,且
。
遗传距离时,通常也是先计算彼此间的相似性指数(s),然后进行转换。
目前用来计算相似性指数的算法很多。
将相似指数转换为距离(d)的方法较多,常用的有:
(1) d= 1-s;
(2) d= 1/s-1;
(3) d= - ln(s);
(4) ;
(5) d=(s+1)/2
等,其中当所得到的s值位于-1和1之间时,常选用公式(5)进行转换。
对前3种方法,当2个OTU间趋异程度较小时,转换后所得到的距离差不多相等,但随着2个OTU间的趋异程度增加,各种转换所得到的距离就有差异,所得到的系统发育树就有可能不同。
因此,应根据适当的进化模型选择合适的转换方法。
4 建树方法
(主要介绍四种方法)
1)
非加权配对算术平均法
或非加权组平均法
NTSYS 3.4
在进化过程中,每一世代发生趋异的次数相同,即碱基或氨基酸的替换速率是均等且恒等的。
2)
是一种推论叠加树的方法。在概念上与UPGMA法相同,但是有四点区别
a.
b.
c.
d.
邻接法的运算过程如下:
①
②
③
④
⑤
⑥
3)
(以Wagner Parsimony来说明Maximum Parsimony法的原理和步骤)
3.1
用Wagner Parsimony决定一个性状演变系列中性状变化的最小量,仅仅需要从终端分类单元开始逐步向根进行的一次操作,这样的操作叫做后根次序遍历。操作过程如下:
a.假设有一个无根支序图。首先人为地先择任意一个终端分类单元为无根支序图赋根,在具体分析中,通常选择一个外群来实现这个目的。
b.对所形成的有根支序图,从根节点开始向上分别标记各个节点。
c.从支序图的顶部开始向着根出发,对支序图上的性状进行优化。若节点I和j的性状集的交是非空集的话,侧节点k的性态集就等于这个交集,在这种节点上,性状变化的次数等于零;若节点I和j的状态集的交是空集时在这两个性状集中各选择一个性状构成节点的最小性状闭集(the smallest closed set)赋予正在研究中的节点,在这种节点上,性状变化的次数是这个最小性状闭集的差值。第3步,这种操作直至支序图的根节点为止。
d.最后查根分类单元(root taxon),看它的性状是否被包括在根节点的性状集中。若包括,支序图在根节点处的长度增加;如果不包括,计算根分类单元的性状与根节点性状集中最接近的性状之间的差值,这个差值就是秩序屠宰根节点处长度的增加值。
e.计算出支序图在每个节点处的长度增加值,它们的总和就是支序图的长度。
通过后根次序遍历只知道在支序图上一个性状演变系列中性状变化的次数,无法确定发生了什麽样的变化。因此需要在上面操作的基础上,在支序图上逆后根次序遍历的方向进行第二次操作,即从支序图的根向终端分类单元逐个考查每个节点,这个过程叫做先根次序遍历,目的是得到最大简约的重建集(MPR)。具体方法:如果一个节点已经被赋予一个最小性状闭集,侧保持这个性状不变;如果一个节点被赋予一个最小性状闭集,侧选择那个与它的最近祖先(在支序图上该节点下放的那个节点或者分类单元)的性状最接近的性状赋予这个节点。然后在支序图上分析性状的变化次数,计算支序图的长度。
3.
3.
简约性方法与其它系统发育分析方法相比有以下几方面的优点:
①
②
③
①只适用于亲缘关系密切的种类或序列之间分析,对于进化时间较长的物种或序列,由于平行和回复突变的干扰,会得出不正确的结果。
②当系统树上不同支系在进化改变量上不等时也会引起误差。
③
4)
即ML法
是应用统计推断构建系统发育关系的典型方法。
建立一个关于进化过程的模型和一组观测数据就可进行统计推断。一棵树T的似然性产生该树的观测数据D与进化模型的概率L;在给定D和M的条件下,不同分支形式和分支长度的树有不同的似然性数值。极似然法的标准时选择具有最大似然性值的树。
②根据进化模型,建立描述序列中一个有初始状态经过进化时间t后改变观测状态的概率表达式。
③根据上面的结果,计算各序列之间的似然性关系。这为最复杂的一步。
④似然性值的显著性检验。
4.3
5上述几种建树方法的比较
|
|
ML法 |
NJ法 |
MP法 |
|
V1=1 V2=0.1 |
|
|
|
|
V1=1 V2=o.2 |
|
|
|
|
V1=0.5V=0.1 |
|
|
|
三 参考文献:

加载中…