Newbler进行基因组组装
(2016-02-22 13:42:18)Newbler介绍
Newbler是罗氏454开发的针对454测序数据进行组装的软件,不同于Illumina测序的fastq格式,454下机数据是sff格式,无法查看,可以用sffinfo进行转换。
Newbler输入文件可以是来自Illumina的fastq文件,或是454的sff文件,newbler可以对454测序数据进行组装,也可以对Illumina进行组装,以及对454和Illumina数据进行混合组装。总体来说,newbler对微生物基因组组装效果不错。
1)Newbler安装
下载和安装参考安装说明,在此,不做介绍
2)Newbler用法
#创建项目目录
$newbler_dir/mapper/bin/newAssembly
#修改参数文件
修改scaffoldLengthThreshold参数,该参数对应scaffold的长度阈值,将2000改为1000
sed
's/2000/1000/g'
#添加测序Reads
如有来自Illumina的fastq文件,可以先将PE或MP测序数据进行Merge
Perl merge_fq.pl r1.fq r2.fq sample.merge.fq
#对r1和r2进行合并的脚本很容易。mege_fq.pl
#!/usr/bin/perl
$filenameA = $ARGV[0];
$filenameB = $ARGV[1];
$filenameOut = $ARGV[2];
open $FILEA, "< $filenameA";
open $FILEB, "< $filenameB";
open $OUTFILE, "> $filenameOut";
while(<$FILEA>) {
}
cd project_dir
$newbler_dir/bin/addRun-p sample.merge.fq sample.sff
-p 代表sample.mege.fq为双端测序数据,如有多个文库,依次添加即可
#newbler组装
$newbler/bin/runProject -cpu 24 -large -mi 96
-cpu:代表线程数,根据服务器的资源选定
-large:能够使拼接更加流畅
-mi:代表序列比对的阈值,可以设置为96或者90(默认)
#组装结果
拼接结果在project_dir/assembly目录下有一个454Scaffolds.fna即为newbler拼接的scaffolds序列。