SOAPdenovo软件使用说明
(2014-08-20 13:48:18)| 标签: 股票 | 分类: 学术 | 
序列拼接一直是生物信息分析中的核心问题,如何得到高质量的基因组序列对于挖掘基因组信息具有重要作用。但是由于当前技术条件限制,测序读长短,存在测序错误等,以及基因组本身复杂性,例如高度重复,高GC等,给序列拼接造成重大影响。今天给大家推荐一款基于Illumina二代测序的短序列拼接软件SOAPdonovo。SOAPdenovo简单易用,组装效果好。既适用于小到细菌基因组达到人类基因组。
更多信息可以访问链接:http://soap.genomics.org.cn/soapdenovo.html
 
1 
SOAPdenovo可以一步跑完,也可以分成四步单独跑
一步跑完的脚本:
./ SOAPdenovo all -s lib.cfg -K 29 -D 1 -o ant
>>ass.log
四步单独跑的脚本:
./ SOAPdenovo pregraph-s lib.cfg -d
1 
./ SOAPdenovo contig -g ant -D 1 -M
3>contig.log
./ SOAPdenovo map -s lib23.cfg -g
ant>map.log
./ SOAPdenovo scaff -g ant -F>scaff.log
2 
1)示例
SOAPdenovo_Release1.0/SOAPdenovo all -sData/HCB.lib -K 25
-d 
2) 
configFile (配置文件内容如下,非程序生成,需要软件使用者自己配置)
#maximal read length 
以“#”开头的行是注释内容
max_rd_len=50   
[LIB]       
avg_ins=200   
reverse_seq=0    于2k文库,序列需要反转,reverse_seq=1,小片段设为0  
asm_flags=3   
短插入片段(<2K)的设为3,同时用于构建contig和scaffold,长插入片段(>=2k)设为2,不用于构建contig,只用于构建scaffold,454single
长reads只用于补洞。
rank=1       
pair_num_cutoff=3 
map_len=32     
q1=/pathfastq_read_1.fq
#read 1的fastq格式的序列文件,“/pathfastq_read_1.fq”为read的存储路径
q2=/pathfastq_read_2.fq
#read 2的fastq格式的序列文件,与read1对应的read2文件紧接在read1之后)
f1=/pathfasta_read_1.fa
#read 1的fasta格式的序列文件
f2=/pathfasta_read_2.fa
#read 2的fasta格式的序列文件
q=/pathfastq_read_single.fq
#单向测序得到的fastq格式的序列文件
f=/pathfasta_read_single.fa
#单向测序得到的fasta格式的序列文件
p=/pathpairs_in_one_file.fa
#双向测序得到的一个fasta格式的序列文件
							
		
 加载中…
加载中…