第一种:UPGMA法(unweighted
pair group method using arithmetic average)
非加权配对算术平均法或非加权组平均法 NTSYS
3.4
前提条件: 在进化过程中,每一世代发生趋异的次数相同,即碱基或氨基酸的替换速率是均等且恒等的。
UPGMA法计算原理和过程:
①以已求得的距离系数,所有比较的分类单元的成对距离构成一个t×t方阵,即建立一个距离矩阵M。
②对于一个给定的距离矩阵,寻求最小距离值Dpq。
③定义类群p和q之间的分支深度Lpq=Dpq/2。
④若p和q是最后一个类群,侧聚类过程完成,否侧合并p和q成一个新类群r。
⑤定义并计算新类群r到其他各类群i(i≠p和q)的距离Dir=(Dpi+Dqi)/2。
⑥回到第一步,在矩阵中消除p和q,加入新类群r,矩阵减少一阶,重复进行直至达到最后归群。
UPGMA法比较直观和简单,运算速度快,应用很广。它的缺点在于当分子进化速率较大时,在'建树过程会引入系统误差。
第二种: 邻接法NJ法(neighbor
joining method)
是一种推论叠加树的方法。在概念上与UPGMA法相同,但是有四点区别
a. NJ法不要求距离符合超度量特性,但要求数据应非常接近或符合叠加性条件,即该方法要求对距离进行校正。
b. 邻接法在成聚过程中连接的是分类单元之间的节点(node),而不是分类单元本身。
c. NJ法中原是距离数据用于估算系统树上所有端结分类单元之间的距离矩阵,校正后的距离用于确定节点之间的连接顺序。
d. 在重建系统发育树时,NJ法取消了UPGMA法所做的假定,认为在此进化分支上,发生趋异的次数可以不同。
邻接法的运算过程如下:
①
对于给定距离矩阵中的每一端结i,用下式计算与其它分类单元之间的净趋异量(Ri)
(t:矩阵中的分类单元数)
②
建立一个速率校正距离矩阵M,其元素由下式确定:
③
定义一个新节点u,u的三个分支分别与节点i,j和树的其余部分相连,并且Dij为矩阵中距离最小者,u到节点i和j的分支长度定义为
④
定义u到树的其它节点k(k≠i和j外的所有节点)的距离:
⑤
从距离矩阵中删除i和j的距离,矩阵减少一阶。
⑥
如果矩阵仍然多于两个的节点,重复第①----⑤步,否测除最外两个节点的分支长度来确定外,树上其余节点都确定,最后是剩余的2个的分支长度Sy=Dij
现在举一例说明邻接法的计算过程和原理。
第三种:最大简约法(Maximum
Parsimony Method)
(以Wagner Parsimony来说明Maximum
Parsimony法的原理和步骤)
1.1 Wagner
Parsimony有两次方向相反的操作。第一次叫做后根次序遍历(postorder
traversal),第二次叫做先根次序遍历(preorder traversal)。用Wagner
Parsimony决定一个性状演变系列中性状变化的最小量,仅仅需要从终端分类单元开始逐步向根进行的一次操作,这样的操作叫做后根次序遍历。操作过程如下:
a.假设有一个无根支序图。首先人为地先择任意一个终端分类单元为无根支序图赋根,在具体分析中,通常选择一个外群来实现这个目的。
b.对所形成的有根支序图,从根节点开始向上分别标记各个节点。
c.从支序图的顶部开始向着根出发,对支序图上的性状进行优化。若节点I和j的性状集的交是非空集的话,侧节点k的性态集就等于这个交集,在这种节点上,性状变化的次数等于零;若节点I和j的状态集的交是空集时,在这两个性状集中各选择一个性状构成节点的最小性状闭集(the
smallest closed
set)赋予正在研究中的节点,在这种节点上,性状变化的次数是这个最小性状闭集的差值。第3步,这种操作直至支序图的根节点为止。
d.最后查根分类单元(root
taxon),看它的性状是否被包括在根节点的性状集中。若包括,支序图在根节点处的长度增加;如果不包括,计算根分类单元的性状与根节点性状集中最接近的性状之间的差值,这个差值就是秩序屠宰根节点处长度的增加值。
e.计算出支序图在每个节点处的长度增加值,它们的总和就是支序图的长度。
通过后根次序遍历只知道在支序图上一个性状演变系列中性状变化的次数,无法确定发生了什麽样的变化。因此需要在上面操作的基础上,在支序图上逆后根次序遍历的方向进行第二次操作,即从支序图的根向终端分类单元逐个考查每个节点,这个过程叫做先根次序遍历,目的是得到最大简约的重建集(MPR)。具体方法:如果一个节点已经被赋予一个最小性状闭集,侧保持这个性状不变;如果一个节点被赋予一个最小性状闭集,侧选择那个与它的最近祖先(在支序图上该节点下放的那个节点或者分类单元)的性状最接近的性状赋予这个节点。然后在支序图上分析性状的变化次数,计算支序图的长度。
现在举例来说明MP法的原理和步骤。
3.2
Wagner简约法外,还有Fitch简约法,Dollo简约法,Camin-Sokal简约法,多态现象简约法(Polymorphism)。
3.3 简约法方法的优缺点:
在各种简约性方法中,Fitch和Wagner简约法能应用于各类性状,对于进缘种类的分析一般都能给出正确的简约树,所以应用最广泛。其它的简约方法多应用于某些特定类型的数据。
简约性方法与其它系统发育分析方法相比有以下几方面的优点:
①
直接应用原始性状数据,并不需要将原始数据转换成距离数据,避免了不可逆转的信息丢失;
②
较少依靠关于系列进化的假说,或至少能依靠一种更符合实际的简单的进化假说;
③
大多数简约法的计算机算法及程序比其它方法更成熟,并允许对数据的系统发育信号和序列进化的动力更深入的分析。
简约法的缺点:
① 只适用于亲缘关系密切的种类或序列之间分析,对于进化时间较长的物种或序列,由于平行和回复突变的干扰,会得出不正确的结果。
② 当系统树上不同支系在进化改变量上不等时也会引起误差。
③
第四种:最大似然法(Maximum
Likelyhood Method) 即ML法
是应用统计推断构建系统发育关系的典型方法。
4.1
ML法的原理:
建立一个关于进化过程的模型和一组观测数据就可进行统计推断。一棵树T的似然性产生该树的观测数据D与进化模型的概率L;在给定D和M的条件下,不同分支形式和分支长度的树有不同的似然性数值。极似然法的标准时选择具有最大似然性值的树。
4.2 ML法进行系统发育分析的过程步骤:
①建立关于进化过程的模型。原侧上不同的分子类型或数据类型应有不同的进化模型或模型中的参数值不同。目前最大似然法主要用于核酸序列分析,所用的进化模型都比较简单,如Jukes-Cantor模型,Kimura的两参数模型等。
②根据进化模型,建立描述序列中一个有初始状态经过进化时间t后改变观测状态的概率表达式。
③根据上面的结果,计算各序列之间的似然性关系。这为最复杂的一步。
④似然性值的显著性检验。
4.3
最大似然法的存在的主要问题
a. 计算上的复杂性,需要大量的计算时间。
b. 进化模型的问题,所使用的进化模型未能反映出序列进化的真实情况,原因在于对进
化过程的了解的局限性,加上由于计算上的限制。
5. 上述几种建树方法的比较
Ⅰ在距离法中UPGMA比较简单而且使用。当使用的距离数据来源于多核苷酸数量较多的多个基因的分析结果时,利用UPGMA法能够得到可靠的系统发育树。
Ⅱ在离散特征法中,在不同世系间进化速率相差较大,且进化速率恒定而树的内支很短的情况下,MP法并不能对一个真正的系统发育树做出始终一致的判断。即使有时MP法能够得到一个始终一致的判断,
但它获得一个正确树的效率,通常要比NJ法和ML法低。
Ⅲ序列趋异程度较小(d<0.1),核苷酸替换的速率在一定程度上恒定;没有很高的转换与替换比很强的G+C含量偏差;所分析的核苷酸数量较多(大于几千)的情况下,MP法仍是一种较好的系统发育树重建法。
Ⅳ与距离法和ML法不同,MP法能够利用序列中碱基的插入与缺失信息。
Ⅴ当不同谱系的进化速率较大变异时,MP法的可靠性降低,采用进化简约法(EP法)处理。在实际,使用MP和ML法重建系统发育树,当OUT的数目<10,通过计算机对所有可能的树做彻底搜索,确定最理想的树;当OUT的数目>10时,采用分支和界限法(从一组具有潜在可能的的树中确定最理想树)或采用启发式搜索法(在分析中只对少部分的可能树进行比较,所以数目可以取较大值,但此法不能保证发现最理想树)
Ⅵ
NJ法不以分子进化等速性为前提。
Ⅶ
NJ,ML和MP三种方法选择正确分子树的概率
|
|
ML法
|
NJ法
|
MP法
|
|
V1=1
V2=0.1
|
0.92
|
0.70
|
0.00
|
|
V1=1
V2=o.2
|
0.96
|
0.88
|
0.00
|
|
V1=0.5V=0.1
|
1.00
|
1.00
|
0.00
|
通过上述方法获得分子系统树是无根的,但是通过外群分析确定树的根。
加载中,请稍候......