【T】每日一生信--metavelvet宏基因组的拼接（终结版）_铁汉1990

http://blog.sina.com.cn/u/1728333092

首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

【T】每日一生信--metavelvet宏基因组的拼接（终结版）

(2014-03-03 16:38:02)

标签：

metavelvet

宏基因组的拼接

分类： filter/assembly/bin(classify

该博文已整理到新地址：

http://qinqianshan.com/ngs/bin/metavelvet/

上次欢天喜地的用idaba-ud拼接出来我的宏基因组，看片段大小，n50以为很牛逼了，最后怎么看我的scg都只有98，这一下就傻逼了，赶紧找新的工具来达到我的目的，据说velvet效果不错，拿来看看。

MetaVelvet是针对宏基因组组装的工具，其基本用法和Velvet（详细用法见之前博文）以及思路差不多。

安装：

1，下载地址： http://metavelvet.dna.bio.keio.ac.jp/src/

2，解压缩 tar zxvf MataVelvet-v1.1.01.tgz

3，进入该目录 cd MetaVelvet-v1.1.01

4，安装 make 'CATEGORIES=10' 'MAXKMERLENGTH=121' 'LONGSEQUENCES=1' 'OPENMP=1' 'BUNDLEDZLIB=1'

# MAXKMERLENGTH为最大的K值，我设定的是90，而CATEGORIES指的是不同测序文库测出来得的数据，而是否是同一文库主要是看Insertsize是否相等，如果有几个库，可以设置多少，或者，也可以通过软件ALLPATHS-LG来统一一下

5，这两个程序写入启动项 sudo cp meta-velvetg /usr/bin/

使用：

1，下载其中的HMP.small.tar.gz来作为数据http://metavelvet.dna.bio.keio.ac.jp/data/

tar zxvf HMP.small.tar.gz

2，运行velveth

velveth out-dir 51 -fasta -shortPaired HMP.small/SRR041654_shuffled.fasta HMP.small/SRR041655_shuffled.fasta

如果read长度大于65bp,我们推荐k-mer长度要大于51

检查"out-dir/Sequences" 和"out-dir/Roadmaps"这两个文件是否生成

[0.000000] Velvet can't handle k-mers as long as 51! We'll stick to 31 if you don't mind.

这里调用的velveth需要写入环境变量，详见我之前关于velvet的博文。

3，运行velvetg

velvetg out-dir -exp_cov auto -ins_length 260

检查"out-dir/Graph2"是否生成

-exp_cov auto必须使用，为了下一步

ins_length两个reads之间的gap + 两个reads的长度，我的是370，注意修改

这里调用的velvetg需要写入环境变量，详见我之前关于velvet的博文。

meta-velvetg out-dir -ins_length 260 | tee logfile

检查"out-dir/meta-velvetg.contigs.fa"是否生成，我的是370，注意修改

建议：

1，对于-exp_cov最好是自己设定，那么我们如何知道呢？

按照上面运行velveth, velvetg, and meta-velvetg，会生成out-dir/meta-velvetg.Graph2-stats.txt"

~$ R

(R) > install.packages("plotrix")

(R) > library(plotrix)

(R) > data = read.table("out-dir/meta-velvetg.Graph2-stats.txt", header=TRUE)

(R) >weighted.hist(data$short1_cov, data$lgth, breaks=seq(0, 200, by=1))

从上图我们大致可以看到有7个峰值210x, 120x, 70x, 45x, 23x, 12x, and 6x

运行脚本也可以知道大致的coverage的峰值

scriptEstimateCovMulti.py out-dir/stats_EstimateCovMulti.txt

这个脚本只找到了6个峰值：214x, 122x, 70x, 43x, 25x, and 13.5x，原因深度为6的那个值太小，有可能来自测序误差，所以就给丢了

meta-velvetg meta-velvetg out-dir -ins_length 260 -exp_covs 214_122_70_43_25_13.5

2，可以用Bambus2 来获得scaffold

详见官网说明

有问题联系： meta@dna.bio.keio.ac.jp 服务态度相当的好啊

用这个之前，最好是安装好velvet，并有环境变量。

参考资料：官网说明 http://metavelvet.dna.bio.keio.ac.jp/

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report

前一篇：【T】今日R--ahull提取二维不规则的数据

后一篇：【T】每日一生信--宏基因组聚类（binning\classification）

新浪BLOG意见反馈留言板　欢迎批评指正