微生物β多样性常用计算方法比较

标签:
生物信息学 |
1、微生物β多样性
利用宏基因组、16s rRNA测序等高通量测序技术分析微生物群体结构的时候,
常见到有α和β多样性两个指标。α多样性主要反映样本内多样性,
而β多样性指的是样本间多样性(Between-sample diversity),
它的本质是一个量化的数值,其值的大小反映每个组内各个样本间的群落物种组成差异。
我们通过计算样本间距离可以获得β多样性计算矩阵,后续一般会利用PCoA、进化树聚类等分析对此数值关系进行图形展示。
以下表为例,表中5个样本通过Unifrac计算出样本间的β值。数值为0时表示两个样本间不存在多样性差异,数值越接近1,表示样本间的β多样性差异越大。
2、样本间距离
样本间距离是指样本之间的相似程度,可以通过数学方法估算。如前所述,样本间越相似,距离数值越小,除了欧氏距离,还有Unifrac、bray-curtis等方法,unifrac是基于物种之间的进化关系,分为两种:一种是Unweighted,只考虑物种的有无;一种是weighted方法,考虑的是物种丰度的变化。这些距离算法主要分为两大类别:OTU间是否关联;OTU是否加权
http://s16/mw690/002o29i7zy7bx6HHyjB9f&690
3、基于独立OTU vs 基于系统发生树
二代测序当中,我们对16s
rDNA某个区域进行测序后,会根据序列的相似度定义OTU。这个时候,基于独立OTU的计算方式认为OTU之间不存在进化上的联系,每个OTU间的关系平等。而基于系统发生树计算的方法,会根据16s的序列信息对OTU进行进化树分类,
因此不同OTU之间的距离实际上有“远近”之分。
4、加权vs非加权
利用非加权的计算方法,主要考虑的是物种的有无,即如果两个群体的物种类型都一致,表示两个群体的样本距离最小。而加权方法,则同时考虑物种有无和物种丰度两个问题。如果A群体由3个物种a和2个物种b组成,B群体由2个物种a和3个物种b组成,则通过非加权方法计算,因为A群体与B群体的物种组成完全一致,都只由物种a和b组成,因此它们之间的样本距离为0。但通过加权方法计算,虽然A与B群体的组成一致,但物种a和b的数目却不同,因此两个群体的β多样性则并非一致。
5、不同距离计算方法比较
在宏基因组和16s测序的分析中,使用最多的距离算法主要有Bray-Curtis和Weighted 及Unweighted
Unifrac。因此,下面我们就这几种常用的微生物多样性算法的特点和应用范围进行简单比较。
Bray-Curtis距离vs Unifrac距离
Bray-Curtis距离和Unifrac距离的主要区别在于计算β值的时候是否考虑OTU的进化关系。根据表2,显然,只有后者是有考虑。这会影响到它们的:
数值表述意义不同:虽然两种方法的数值都是在0-1之间,但具体所表示的生物学意义却不一样。在Bray-Curtis算法中,0表示两个微生物群落的OTU结构(包括组成和丰度)完全一致;而在Unifrac中,0更侧重于表示两个群落的进化分类完全一致。
实际应用的合理性:在实际微生物研究中,如果样本间物种的近源程度较高(温和处理样本与对照样本,生境相似的不同样本等),利用Bray-Curtis这种把OTU都同等对待的方法,更有利于发现样本间的差异。而Unifrac则更适合用于展示此类样本的重复性。
Weighted Unifrac距离 vs Unweighted Unifrac距离
Unifrac除了具有考虑OTU之间的进化关系的特点之外,根据有没有考虑OTU丰度的区别,Unifrac分析可以分为加权(WeightedUunifrac)和非加权(Unweighted
Unifrac)两种方法。它们的不同在于:
数值表述意义:Unweighted
UniFrac只考虑了物种有无的变化,因此结果中,0表示两个微生物群落间OTU的种类一致。而Weighted
UniFrac则同时考虑物种有无和物种丰度的变化,结果中的0则表示群落间OTU的种类和数量都一致。
实际应用的合理性:在环境样本的检测中,由于影响因素复杂,群落间物种的组成差异更为剧烈,因此往往采用非加权方法进行分析。但如果要研究对照与实验处理组之间的关系,例如研究短期青霉素处理后,人肠道的菌落变化情况,由于处理后群落的组成一般不会发生大改变,但群落的丰度可能会发生大变化,因此更适合用加权方法去计算。
前一篇:KEGG数据库简介