SOAPdenovo软件使用说明_胖小妖

http://blog.sina.com.cn/u/2510103112

首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

SOAPdenovo软件使用说明

(2014-08-20 13:48:18)

标签：

股票

分类：学术

序列拼接一直是生物信息分析中的核心问题，如何得到高质量的基因组序列对于挖掘基因组信息具有重要作用。但是由于当前技术条件限制，测序读长短，存在测序错误等，以及基因组本身复杂性，例如高度重复，高GC等，给序列拼接造成重大影响。今天给大家推荐一款基于Illumina二代测序的短序列拼接软件SOAPdonovo。SOAPdenovo简单易用，组装效果好。既适用于小到细菌基因组达到人类基因组。

更多信息可以访问链接：http://soap.genomics.org.cn/soapdenovo.html

1 使用程序及参数：

SOAPdenovo可以一步跑完，也可以分成四步单独跑

一步跑完的脚本:

./ SOAPdenovo all -s lib.cfg -K 29 -D 1 -o ant >>ass.log

四步单独跑的脚本:

./ SOAPdenovo pregraph-s lib.cfg -d 1 -K 29 -o ant>pregraph.log

./ SOAPdenovo contig -g ant -D 1 -M 3>contig.log

./ SOAPdenovo map -s lib23.cfg -g ant>map.log

./ SOAPdenovo scaff -g ant -F>scaff.log

2 参数说明

-s STR 配置文件

-o STR 输出文件的文件名前缀

-g STR 输入文件的文件名前缀

-K INT 输入的K-mer值大小，默认值23，取值范围 13-63

-p INT 程序运行时设定的线程数，默认值8

-R 利用read鉴别短的重复序列，默认值不进行此操作

-d INT 去除频数不大于该值的k-mer，默认值为0

-D INT 去除频数不大于该值的由k-mer连接的边，默认值为1，即该边上每个点的频数都小于等于1时才去除

-M INT 连接contig时合并相似序列的等级，默认值为1，最大值3。

-F 利用read对scaffold中的gap进行填补，默认不执行

-u 构建scaffold前不屏蔽高覆盖度的contig，这里高频率覆盖度指平均contig覆盖深度的2倍。默认屏蔽

-G INT 估计gap的大小和实际补gap的大小的差异，默认值为50bp。

-L 用于构建scaffold的contig的最短长度，默认为：Kmer参数值×2

3 使用方法及示例

1）示例

SOAPdenovo_Release1.0/SOAPdenovo all -sData/HCB.lib -K 25 -d -o test

2) 输入文件

configFile (配置文件内容如下，非程序生成，需要软件使用者自己配置)

#maximal read length （read的最大长度）

以“#”开头的行是注释内容

max_rd_len=50 #该值一般设置的比实际read读长稍微短一些，截去测序最后的部分，具体长度看测序质量

[LIB] #文库信息以此开头

avg_ins=200 #文库平均插入长度，一般取插入片段分布图中给出的文库大小

reverse_seq=0 #序列是否需要被反转，目前的测序技术，插入片段大于等于2k的采用了环化，所以对于插入长度大于等于2k文库，序列需要反转，reverse_seq＝1，小片段设为0

asm_flags=3 #该文库中的read序列在组装的哪些过程（contig/scaff/fill）中用到

设为1：只用于构建contig；

设为2：只用于构建scaffold；

设为3：同时用于构建contig和scaffold；

设为4：只用于补洞

短插入片段(<2K)的设为3，同时用于构建contig和scaffold，长插入片段(>=2k)设为2，不用于构建contig，只用于构建scaffold，454single 长reads只用于补洞。

rank=1 #rank该值取整数，决定了reads用于构建scaffold的次序，值越低，数据越优先用于构建scaffold。设置了同样rank的文库数据会同时用于组装scaffold。一般将短插入片段设为1；2k设为2；5k设为3；10k设为4；当某个档的数据量较大时，也可以将其分为多个档，同样，当某档数据量不足够时，可以将多个档的数据合在一起构建scaffold。这里说的数据量够与不够是从该档的测序覆盖度和物理覆盖度两个方面来考虑的。

pair_num_cutoff=3 #可选参数，pair_num_cutoff该参数规定了连接两个contig或者是pre-scaffold 的可信连接的阈值，即，当连接数大于该值，连接才算有效。短插入片段(<2k)默认值为3，长插入长度序列默认值为5

map_len=32 #map_len该参数规定了在map过程中 reads和contig的比对长度必须达到该值（比对不容mismacth和gap），该比对才能作为一个可信的比对。可选参数，短插入片段(<2k)一般设置为32，长插入片段设置为35，默认值是K＋2。

q1=/pathfastq_read_1.fq

#read 1的fastq格式的序列文件，“/pathfastq_read_1.fq”为read的存储路径

q2=/pathfastq_read_2.fq

#read 2的fastq格式的序列文件，与read1对应的read2文件紧接在read1之后）

f1=/pathfasta_read_1.fa

#read 1的fasta格式的序列文件

f2=/pathfasta_read_2.fa

#read 2的fasta格式的序列文件

q=/pathfastq_read_single.fq

#单向测序得到的fastq格式的序列文件