SOAPdenovo软件使用说明
(2014-08-20 13:48:18)
标签:
股票 |
分类: 学术 |
序列拼接一直是生物信息分析中的核心问题,如何得到高质量的基因组序列对于挖掘基因组信息具有重要作用。但是由于当前技术条件限制,测序读长短,存在测序错误等,以及基因组本身复杂性,例如高度重复,高GC等,给序列拼接造成重大影响。今天给大家推荐一款基于Illumina二代测序的短序列拼接软件SOAPdonovo。SOAPdenovo简单易用,组装效果好。既适用于小到细菌基因组达到人类基因组。
更多信息可以访问链接:http://soap.genomics.org.cn/soapdenovo.html
1
SOAPdenovo可以一步跑完,也可以分成四步单独跑
一步跑完的脚本:
./ SOAPdenovo all -s lib.cfg -K 29 -D 1 -o ant
>>ass.log
四步单独跑的脚本:
./ SOAPdenovo pregraph-s lib.cfg -d
1 -K 29 -o ant>pregraph.log
./ SOAPdenovo contig -g ant -D 1 -M
3>contig.log
./ SOAPdenovo map -s lib23.cfg -g
ant>map.log
./ SOAPdenovo scaff -g ant -F>scaff.log
2 参数说明
1)示例
SOAPdenovo_Release1.0/SOAPdenovo all -sData/HCB.lib -K 25
-d -o test
2) 输入文件
configFile (配置文件内容如下,非程序生成,需要软件使用者自己配置)
#maximal read length (read的最大长度)
以“#”开头的行是注释内容
max_rd_len=50 #该值一般设置的比实际read读长稍微短一些,截去测序最后的部分,具体长度看测序质量
[LIB] #文库信息以此开头
avg_ins=200 #文库平均插入长度,一般取插入片段分布图中给出的文库大小
reverse_seq=0 #序列是否需要被反转,目前的测序技术,插入片段大于等于2k的采用了环化,所以对于插入长度大于等 于2k文库,序列需要反转,reverse_seq=1,小片段设为0
asm_flags=3 #该文库中的read序列在组装的哪些过程(contig/scaff/fill)中用到
短插入片段(<2K)的设为3,同时用于构建contig和scaffold,长插入片段(>=2k)设为2,不用于构建contig,只用于构建scaffold,454single
长reads只用于补洞。
rank=1 #rank该值取整数,决定了reads用于构建scaffold的次序,值越低,数据越优先用于构建scaffold。设置了同样rank的文库数据会同时用于组装scaffold。一般将短插入片段设为1;2k设为2;5k设为3;10k设为4;当某个档的数据量较大时,也可以将其分为多个档,同样,当某档数据量不足够时,可以将多个档的数据合在一起构建scaffold。这里说的数据量够与不够是从该档的测序覆盖度和物理覆盖度两个方面来考虑的。
pair_num_cutoff=3 #可选参数,pair_num_cutoff该参数规定了连接两个contig或者是pre-scaffold
的可信连接的阈值,即,当连接数大于该值,连接才算有效。短插入片段(<2k)默认值为3,长插入长度序列默认值为5
map_len=32 #map_len该参数规定了在map过程中
reads和contig的比对长度必须达到该值(比对不容mismacth和gap),该比对才能作为一个可信的比对。可选参数,短插入片段(<2k)一般设置为32,长插入片段设置为35,默认值是K+2。
q1=/pathfastq_read_1.fq
#read 1的fastq格式的序列文件,“/pathfastq_read_1.fq”为read的存储路径
q2=/pathfastq_read_2.fq
#read 2的fastq格式的序列文件,与read1对应的read2文件紧接在read1之后)
f1=/pathfasta_read_1.fa
#read 1的fasta格式的序列文件
f2=/pathfasta_read_2.fa
#read 2的fasta格式的序列文件
q=/pathfastq_read_single.fq
#单向测序得到的fastq格式的序列文件
f=/pathfasta_read_single.fa
#单向测序得到的fasta格式的序列文件
p=/pathpairs_in_one_file.fa
#双向测序得到的一个fasta格式的序列文件

加载中…