加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

【T】每日一生信--metavelvet宏基因组的拼接(终结版)

(2014-03-03 16:38:02)
标签:

metavelvet

宏基因组的拼接

分类: filter/assembly/bin(classify
该博文已整理到新地址:
http://qinqianshan.com/ngs/bin/metavelvet/

   上次欢天喜地的用idaba-ud拼接出来我的宏基因组,看片段大小,n50以为很牛逼了,最后怎么看我的scg都只有98,这一下就傻逼了,赶紧找新的工具来达到我的目的,据说velvet效果不错,拿来看看。

MetaVelvet是针对宏基因组组装的工具,其基本用法和Velvet(详细用法见之前博文)以及思路差不多。

安装:

1,下载地址: http://metavelvet.dna.bio.keio.ac.jp/src/

2,解压缩    tar zxvf MataVelvet-v1.1.01.tgz

3,进入该目录   cd MetaVelvet-v1.1.01

4,安装     make 'CATEGORIES=10' 'MAXKMERLENGTH=121' 'LONGSEQUENCES=1' 'OPENMP=1' 'BUNDLEDZLIB=1'

# MAXKMERLENGTH为最大的K值,我设定的是90,而CATEGORIES指的是不同测序文库测出来得的数据,而是否是同一文库主要是看Insertsize是否相等,如果有几个库,可以设置多少,或者,也可以通过软件ALLPATHS-LG来统一一下

5,这两个程序写入启动项   sudo cp meta-velvetg /usr/bin/

 

使用:

1,下载其中的HMP.small.tar.gz来作为数据http://metavelvet.dna.bio.keio.ac.jp/data/

      tar zxvf HMP.small.tar.gz

2,运行velveth

    velveth out-dir 51 -fasta -shortPaired HMP.small/SRR041654_shuffled.fasta  HMP.small/SRR041655_shuffled.fasta

如果read长度大于65bp,我们推荐k-mer长度要大于51

  检查"out-dir/Sequences" "out-dir/Roadmaps"这两个文件是否生成

[0.000000] Velvet can't handle k-mers as long as 51! We'll stick to 31 if you don't mind.

  这里调用的velveth需要写入环境变量,详见我之前关于velvet的博文。

3,运行velvetg

velvetg out-dir -exp_cov auto -ins_length 260

检查"out-dir/Graph2"是否生成

-exp_cov auto必须使用,为了下一步

ins_length两个reads之间的gap + 两个reads的长度,我的是370,注意修改

   这里调用的velvetg需要写入环境变量,详见我之前关于velvet的博文。

4

   meta-velvetg out-dir -ins_length 260 | tee logfile

检查"out-dir/meta-velvetg.contigs.fa"是否生成,我的是370,注意修改

 

 

建议:

1,对于-exp_cov最好是自己设定,那么我们如何知道呢?

按照上面运行velveth, velvetg, and meta-velvetg,会生成out-dir/meta-velvetg.Graph2-stats.txt"

~$ R

(R) > install.packages("plotrix")

(R) > library(plotrix)

(R) > data = read.table("out-dir/meta-velvetg.Graph2-stats.txt", header=TRUE)

(R) >weighted.hist(data$short1_cov, data$lgth, breaks=seq(0, 200, by=1))

【T】每日一生信--metavelvet宏基因组的拼接(终结版)

从上图我们大致可以看到有7个峰值210x, 120x, 70x, 45x, 23x, 12x, and 6x

 

运行脚本也可以知道大致的coverage的峰值

scriptEstimateCovMulti.py out-dir/stats_EstimateCovMulti.txt

这个脚本只找到了6个峰值:214x, 122x, 70x, 43x, 25x, and 13.5x,原因深度为6的那个值太小,有可能来自测序误差,所以就给丢了

 

meta-velvetg meta-velvetg out-dir -ins_length 260 -exp_covs 214_122_70_43_25_13.5

 

2,可以用Bambus2 来获得scaffold

    详见官网说明

 

 

有问题联系: meta@dna.bio.keio.ac.jp 服务态度相当的好啊

用这个之前,最好是安装好velvet,并有环境变量。

 

参考资料:官网说明 http://metavelvet.dna.bio.keio.ac.jp/

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有