【T】每日一生信--metavelvet宏基因组的拼接(终结版)

标签:
metavelvet宏基因组的拼接 |
分类: filter/assembly/bin(classify |
MetaVelvet是针对宏基因组组装的工具,其基本用法和Velvet(详细用法见之前博文)以及思路差不多。
安装:
1,下载地址: http://metavelvet.dna.bio.keio.ac.jp/src/
2,解压缩
3,进入该目录
4,安装
# MAXKMERLENGTH为最大的K值,我设定的是90,而CATEGORIES指的是不同测序文库测出来得的数据,而是否是同一文库主要是看Insertsize是否相等,如果有几个库,可以设置多少,或者,也可以通过软件ALLPATHS-LG来统一一下
5,这两个程序写入启动项
使用:
1,下载其中的HMP.small.tar.gz来作为数据http://metavelvet.dna.bio.keio.ac.jp/data/
2,运行velveth
如果read长度大于65bp,我们推荐k-mer长度要大于51
[0.000000] Velvet can't handle k-mers as long as 51! We'll stick to 31 if you don't mind.
3,运行velvetg
velvetg out-dir -exp_cov auto -ins_length 260
检查"out-dir/Graph2"是否生成
-exp_cov auto必须使用,为了下一步
ins_length两个reads之间的gap + 两个reads的长度,我的是370,注意修改
4
检查"out-dir/meta-velvetg.contigs.fa"是否生成,我的是370,注意修改
建议:
1,对于-exp_cov最好是自己设定,那么我们如何知道呢?
按照上面运行velveth, velvetg, and meta-velvetg,会生成out-dir/meta-velvetg.Graph2-stats.txt"
~$ R
(R) > install.packages("plotrix")
(R) > library(plotrix)
(R) > data = read.table("out-dir/meta-velvetg.Graph2-stats.txt", header=TRUE)
(R) >weighted.hist(data$short1_cov, data$lgth, breaks=seq(0, 200, by=1))
从上图我们大致可以看到有7个峰值210x, 120x, 70x, 45x, 23x, 12x, and 6x
运行脚本也可以知道大致的coverage的峰值
scriptEstimateCovMulti.py out-dir/stats_EstimateCovMulti.txt
这个脚本只找到了6个峰值:214x, 122x, 70x, 43x, 25x, and 13.5x,原因深度为6的那个值太小,有可能来自测序误差,所以就给丢了
meta-velvetg meta-velvetg out-dir -ins_length 260 -exp_covs 214_122_70_43_25_13.5
2,可以用Bambus2
有问题联系: meta@dna.bio.keio.ac.jp 服务态度相当的好啊
用这个之前,最好是安装好velvet,并有环境变量。
参考资料:官网说明 http://metavelvet.dna.bio.keio.ac.jp/