微生物多样性分析中物种与环境因子相关性分析（RDA\CCA）_fanyucai

http://blog.sina.com.cn/u/2214034580

首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

微生物多样性分析中物种与环境因子相关性分析（RDA\CCA）

(2015-12-14 11:53:04)

分类：生物信息学

1: 多元统计分析是群落生态学常用的分析方法，排序是多元统计最常用的方法之一。排序可以排列物种及环境因素，用于研究群落之间，群落于环境之间的复杂关系。只使用物种组成数据的排序称作间接排序，同时使用物种和环境因子组成数据的排序叫做直接排序。对于其数学分析的具体描述如下：

表格 1微生物多样性分析中统计分析方法概述

排序方法	数学模型	数据输入	Vegan函数使用	分析类型
PCA	线性模型	物种数据	RDA	间接分析
RDA	线性模型	物种数据和环境因子	RDA	直接（约束）排序
CCA	单峰模型	物种数据和环境因子	CCA	直接（约束）排序
CA	单峰模型	物种数据	CCA	间接分析

2:关于分析：CANOCO是广泛使用的排序软件，但缺点是商业软件价格不菲。另外，R语言中的开源软件包“Vegan”是专门用于群落生态学分析的工具。

3:数据读入：(一行代表一个样方，一列代表一个物种)

物种数据：gtsdata=read.csv(“gtsdata.csv”,header=T)

环境因子数据：gtsenv=read.csv(“gtsenv.csv”,header=T)

4:关于模型选择：一般来说，如果物种分布变化大，选择单峰模型效果比较好；反之，线性模型也不错。在CANOCO里面，可以通过DCA分析里面“Lengths of gradient”来判别选择线性排序还是单峰排序。在R-vegan里面，可以用DCA分析来判别，R里面DCA为函数：decorana（）

>decorana(gtsdata)

Call:

decorana(veg=gtsdata)

Detrended correspondence analysis with 26 segments.

Rescaling of axes with 4 iteratons.

DCA1 DCA2 DCA3 DCA4

Eigenvalues 0.3939 0.2239 0.09555 0.06226

Decorana values 0.5025 0.1756 0.06712 0.03877

Axis lengths 3.2595 2.5130 1.21445 1.00854

如果DCA排序前4个轴中最大值超过4，选择单峰模型。如果是笑语3，则选择线性模型。如果介于3～4之间，两者都可以。

5:RDA分析：

gts.rda=rda(gtsdata,gtsenv)

$微生物多样性分析中物种与环境因子相关性分析（RDA\CCA）$

表面8个环境因子对物种分布的解释量为137.4/352.1=39.02%。

plot (gts.rda, display=c(“sp”, “bp”),scaling=3)

注：display=c(“sp”, “bp”)表示显示环境因子与物种

display=c(“si”, “bp”)表示显示环境因子与样本

display=c(“si”, “bp”，“sp”)表示显示物种、样本和环境因子

scaling=1关注物种之间的关系

scaling=2关注样本之间的关系

scaling=3 关注样本与物种之间的关系

$微生物多样性分析中物种与环境因子相关性分析（RDA\CCA）$

环境因子一般用箭头表示，箭头连线的长度代表某个环境因子与群落分布和种类分布间相关程度的大小，连线越长，说明相关性越大，反之越小。箭头连线和排序轴的夹角代表某个环境因子与排序轴的相关性大小，夹角越小，相关性越高；反之越低。

如果把环境因子分成两部分:地形因子（gtsenv[,1:4]）；土壤因子（gtssev[,5:8]），分别看一下贡献率。这种叫做约束排序有偏分析法。分析方法如下：

gts.prad1=rda(gtsdata,gtsenv[,1:4],gtssev[,5:8])

gts.prad1

Call:rda(X=gtsdata,Y=gtsenc[,1:4],Z=gtsenv[,5:8])

Inertia Rank

Total 352.09

Conditional 95.034

Unconstrained 214.6922

Inertia is variance

Eigenvalues for constrained axes:

RDA1 RDA2 RDA3 RDA4

27.522 9.087 3.442 2.320

Eigenvalues for unconstrained axes:

PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8

72.287 54.891 26.618 17.959 12.730 9.918 5.569 5.349

(Showed only 8 of all 22 unconstrained eigenvalues)

地形因子变量单独所能解释为：42.37/352.09=12.03%.将上面的输入变化位置就可以得到土壤因子变量的贡献率：54.69/352.09=15.53%。之前可以看到环境因子共同解释量为：39.02%，则维恩图如下：

$微生物多样性分析中物种与环境因子相关性分析（RDA\CCA）$

6: CCA分析：将上面的分析函数换成gts.cca=cca(gtsdata,gtsenv)

7:检验环境因子相关显著性

分析环境因子对物种分布的解释量是否具有显著性：

$微生物多样性分析中物种与环境因子相关性分析（RDA\CCA）$

如果检验每个环境因子的显著性：

ef=envfit(gts.cca,gtsenv,permu=999)

>ef

***VECTORS

$微生物多样性分析中物种与环境因子相关性分析（RDA\CCA）$
这里CCA1和CCA2两列所对应的值是环境因子箭头与排序轴夹角的余弦值，表示环境因子与排序轴的相关性。R^{^2}表示环境因子与物种分布的决定系数，值越小，表示该环境因子对物种分布影响越小。Pr表示相关性的显著性检验。如果要简化模型，可以将没有显著性的因子去掉。

RDA线与线之间看夹角余弦值。

CCA中，物种以点表示不是用线表示，从点向线做垂线，垂足与箭头连线越短关系越紧密。（http://wenku.baidu.com/link?url=tma1m6SvnrffPDIObwToo8JGjwm6qy3IySw7CoWRdLetlb7QU0k7b1iXuY7SmSmoB8EcmwAf369_UlqJz-lF1dh0K94UxrJOnrsT2Fo-u-a）

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report

前一篇：平均核苷酸一致性average nucleotide identity (ANI)

后一篇：使用mvpart做多元回归树

新浪BLOG意见反馈留言板　欢迎批评指正