加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

微生物beta多样性PCA、PCoA、NMDS、CCA、RDA、CA之间区别与联系

(2018-05-24 15:31:50)
分类: 宏基因组

降维排序分析方法包括:主成分分析(PCA)、主坐标分析(PCOA),对应分析(CA)(加权平均法 迭代运算)、去趋势对应分析(DCA)和非度量多维尺度分析(NMDS),冗余分析(RDA)典范对应分析(CCA)等等还有很多。这些方法在生态学当中统称为排序分析,种类太多,对于新手来说很容易就搞混淆了,或者说这么多分析方法我该选哪一个方法呢?今天我这里就给大家总结一下:

更详细的见宏基因组视频讲解

总结得到如下表格: 

Raw data based Raw data based distance based
Linear model Unimodal
unconstrained ordination(indirect gradient analysis) PCA CA,DCA PCoA,NMDS
constrained ordination(direct gradient analysis) RDA CCA,DCCA CPCoA,db-RDA

非约束排序和约束排序排序区别

非约束排序也叫间接梯度分析(unconstrained ordination or indirect gradient analysis)的目标就是发现这样的坐标轴,让群落中的样方或是物种的最大变化量能够在坐标轴上体现出来。换句话说,让尽可能多的变化量能够在尽可能少的轴上展示出来,并且让样方或物种在排序图能够可视化展示出来。当然,我们会经常期望这些轴能够代表一些潜在的环境变量。而约束排序(constrained ordination)的目的就是发现物种在环境梯度上的变化情况。说白了非约束排序不需要输入环境变量信息(如 PH,湿度,温度等),而约束排序需要环境信息,对排序图进行约束。典型的非约束排序有PCA,PCoA,NMDS,CA分析等,约束排序典型例子有RDA CCA等分析;其中RDA就是PCA的约束排序版本,CCA是CA分析对应的约束排序分析方法。

什么是排序分析?

排序过程是将样品或物种排列在一定的空间,在一个低维空间中,使相似的样品或物种距离相近,相异的样品或物种距离较远。也就是说排序可以揭示微生物-环境间的生态关系.降低维数,减少坐标轴的数目,使排序轴能够反映一定的生态梯度。

为什么要做排序降维分析?

试想一下面对P(种)×N(样品)的原始数据矩阵(OTU table),即使是通过距离算法(欧式距离,jaccard距离,bray-curtis,unifrac距离等)得到两两样品之间的距离矩阵,也是N(样品)×N(样品)的大量数据,如果不借助任何统计方法,我们很难从这种多维的数据当中用肉眼观察到数据的内在关系,也就是微生物与环境的分布关系。

我们想用数据的可视化来展示我们的数据,如果输入的是OTU table的话,当样品较少,物种也较少的时候,我们可以将样品按照物种的丰度在多维空间上进行排序分布,如果是距离矩阵,不了解距离矩阵的看这里 这里,可以得到两两样品的相异距离矩阵,我们可以利用相异矩阵在空间上排列样品,是样品在空间上的距离与原始的距离矩阵保持一致。如下图所示:

http://s8/bmiddle/002RiVfNzy7kIpMPAz557&690注:通过观察ABC三点之间的距离我们就能他们的之间的相异关系,距离越远相似性就越差,距离越近相似性就越高,
当然这里只举例了三维下的例子,再多的维度我也理解不了了。我们看到如果排序所用到的数据为OTU table的话,有多少个物种就有多少维空间,如果输入的是距离矩阵那么有n个样品,就有n-1个维度,最后的结果是数据还是非常复杂。

 

排序降维意义

这时候又要用到排序降维的思想了,降维就是建立一个低维的空间,让原来多维的空间影射到这个低维的空间来,但让物种或样方空间关系失真最小.

http://s15/bmiddle/002RiVfNzy7kIpNZp7w3e&690降维的过程就像投影,找到最好的角度使投影后的物种或者样品的位置关系尽量保持原始的位置关系

上面两个图分别代表了PCA的分析原理和PCoA的分析原理,不同之处是PCA是基于OTU table也就是基于欧式距离,而PCoA是基于两两样品之间的距离矩阵(前面提到的除欧式距离以外的其他距离矩阵),如果PCoA 也使用欧式距离矩阵的话,那么PCA和PCoA的分析结果是一样的。

另外,PCoA是基于距离矩阵,它的排序的目的是将N个样品排列在一定的空间,使得样品间的空间差异与原始距离矩阵保持一致,这类排序方法也称作多维标定排序(Multi—dimensional scaling)。如果排序依赖于相异系数的数值,就叫有度量多维标定法(metric multi—dimensional scaling)所以说PCoA分析也叫有度量多维标定法;如果排序仅仅决定于相异系数的大小顺序(秩次排序),则称为无度量多维标定法(Non—Metric Multi—Dimensional Scaling;NMDS)。

线性模型和单峰模型

所有排序方法都是基于一定的模型之上,这种模型反映物种和环境之间的关系以及在某一环境梯度上的种间关系。最常用的关系模型有两种:一种是线形模型(linear model),另一种是单峰模型(unimodal model)。线形模型的含义表示某个植物种随着某一环境因子的变化而呈线性变化或叫线性响应(linear response)。单峰模型的含义是某个植物种的个体数随某个环境因子值的增加而增加。当环境因子增加到某一值时,植物种的个体数达到最大值,此时的环境因子值称为该种的最适值(optimum);随后当环境因子值继续增加时,种的个体数逐渐下降。为了简化单峰模型,我们经常假设单峰曲线以峰值为中心,两边是对称的。

http://s14/mw690/002RiVfNzy7lwYwjZWl7d&690
选择单峰模型还是线性模型可点击阅读原文


推荐视频课程
5. 微生物16S/ITS/18S分析原理及结果解读OTU网络图绘制cytoscape与网络图绘制课程  微生物扩增子分析课程实操


延伸阅读
微生物测序原理|肠道君|什么是OTU|alpha多样性|Beta多样性|GraPhlAn树状图|OTU网络图MENA

http://s9/mw690/002RiVfNzy7kOJdkrBC98&690

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有