微生物多样性分析中物种与环境因子相关性分析(RDA\CCA)

分类: 生物信息学 |
1: 多元统计分析是群落生态学常用的分析方法,排序是多元统计最常用的方法之一。排序可以排列物种及环境因素,用于研究群落之间,群落于环境之间的复杂关系。只使用物种组成数据的排序称作间接排序,同时使用物种和环境因子组成数据的排序叫做直接排序。对于其数学分析的具体描述如下:
表格 1微生物多样性分析中统计分析方法概述
排序方法 |
数学模型 |
数据输入 |
Vegan函数使用 |
分析类型 |
PCA |
线性模型 |
物种数据 |
RDA |
间接分析 |
RDA |
线性模型 |
物种数据和环境因子 |
RDA |
直接(约束)排序 |
CCA |
单峰模型 |
物种数据和环境因子 |
CCA |
直接(约束)排序 |
CA |
单峰模型 |
物种数据 |
CCA |
间接分析 |
2:关于分析:CANOCO是广泛使用的排序软件,但缺点是商业软件价格不菲。另外,R语言中的开源软件包“Vegan”是专门用于群落生态学分析的工具。
3:数据读入:(一行代表一个样方,一列代表一个物种)
物种数据:gtsdata=read.csv(“gtsdata.csv”,header=T)
环境因子数据:gtsenv=read.csv(“gtsenv.csv”,header=T)
4:关于模型选择:一般来说,如果物种分布变化大,选择单峰模型效果比较好;反之,线性模型也不错。在CANOCO里面,可以通过DCA分析里面“Lengths of gradient”来判别选择线性排序还是单峰排序。在R-vegan里面,可以用DCA分析来判别,R里面DCA为函数:decorana()
>decorana(gtsdata)
Call:
decorana(veg=gtsdata)
Detrended correspondence analysis with 26 segments.
Rescaling of axes with 4 iteratons.
DCA1 DCA2 DCA3 DCA4
Eigenvalues 0.3939 0.2239 0.09555 0.06226
Decorana values 0.5025 0.1756 0.06712 0.03877
Axis lengths 3.2595 2.5130 1.21445 1.00854
如果DCA排序前4个轴中最大值超过4,选择单峰模型。如果是笑语3,则选择线性模型。如果介于3~4之间,两者都可以。
5:RDA分析:
gts.rda=rda(gtsdata,gtsenv)
表面8个环境因子对物种分布的解释量为137.4/352.1=39.02%。
plot (gts.rda, display=c(“sp”, “bp”),scaling=3)
注:display=c(“sp”, “bp”)表示显示环境因子与物种
环境因子一般用箭头表示,箭头连线的长度代表某个环境因子与群落分布和种类分布间相关程度的大小,连线越长,说明相关性越大,反之越小。箭头连线和排序轴的夹角代表某个环境因子与排序轴的相关性大小,夹角越小,相关性越高;反之越低。
如果把环境因子分成两部分:地形因子(gtsenv[,1:4]);土壤因子(gtssev[,5:8]),分别看一下贡献率。这种叫做约束排序有偏分析法。分析方法如下:
gts.prad1=rda(gtsdata,gtsenv[,1:4],gtssev[,5:8])
gts.prad1
Call:rda(X=gtsdata,Y=gtsenc[,1:4],Z=gtsenv[,5:8])
Inertia Rank
Total 352.09
Conditional 95.034
Unconstrained 214.6922
Inertia is variance
Eigenvalues for constrained axes:
RDA1 RDA2 RDA3 RDA4
27.522 9.087 3.442 2.320
Eigenvalues for unconstrained axes:
PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8
72.287 54.891 26.618 17.959 12.730 9.918 5.569 5.349
(Showed only 8 of all 22 unconstrained eigenvalues)
地形因子变量单独所能解释为:42.37/352.09=12.03%.将上面的输入变化位置就可以得到土壤因子变量的贡献率:54.69/352.09=15.53%。之前可以看到环境因子共同解释量为:39.02%,则维恩图如下:
6: CCA分析:将上面的分析函数换成gts.cca=cca(gtsdata,gtsenv)
7:检验环境因子相关显著性
分析环境因子对物种分布的解释量是否具有显著性:
如果检验每个环境因子的显著性:
ef=envfit(gts.cca,gtsenv,permu=999)
>ef
***VECTORS
这里CCA1和CCA2两列所对应的值是环境因子箭头与排序轴夹角的余弦值,表示环境因子与排序轴的相关性。R^2表示环境因子与物种分布的决定系数,值越小,表示该环境因子对物种分布影响越小。Pr表示相关性的显著性检验。如果要简化模型,可以将没有显著性的因子去掉。
RDA线与线之间看夹角余弦值。
CCA中,物种以点表示不是用线表示,从点向线做垂线,垂足与箭头连线越短关系越紧密。(http://wenku.baidu.com/link?url=tma1m6SvnrffPDIObwToo8JG