cutadapter 软件使用之二

分类: 生信软件使用 |
5) 去除双端测序数据的adapter 序列
用法:
cutadapt -a ADAPTER_FWD -A
ADAPTER_REV -o out.1.fastq -p out.2.fastq reads.1.fastq
reads.2.fastq
备注:
cutadapt 在搜寻引物时, 默认允许错配和插入缺失, 比如
adapter 序列是ADAPTER, 此时
ADABTER
有一个错配,也会被剪切掉
ADAPTR
有一个缺失,deletion ,也会被剪切掉
ADAPPTER 有一个插入,也会被剪切掉
可以采用-e 指定错配的比例, 默认-e 为0.1, 比如adapter
序列长度为9,允许的错配数为 9 * 0.1 = 0.9, 然后直接向下取整后为0,
所以允许的错配数为0;
可以采用-no-indels 来禁止插入和缺失,减少错误的剪切情况
因为cutadapt 允许部分匹配,比如 adapter 序列为ADAPTER ,
测序得到的 序列为ATCGATGCTADCGAGCGC,在序列的中间位置AD是adapter 序列的一部分,
此时会把AD以及之后的序列全部剪切掉,这种情况就属于错误的剪切,所以cutadapt
默认必须至少有3个碱基匹配时才会认为是adapter 序列,然后进行切除, 这个参数可以通过 --overlap
参数来指定默认的3适合绝大多数的情况
6) 去除低质量序列
使用-q/--trim-qualities 过滤低质量序列,
在去除adapter序列之前就开始过滤低质量序列;默认使用phred quality+33 的方式识别序列质量,如果为phred
quality+64的方式,则添加--quality-base=64 参数
用法:
cutadapt -q 10 -o output.fastq input.fastq
默认只过滤3端的低质量序列, 如果想要过滤5端低质量序列,需要用逗号隔开
cutadapt -q 15,10 -o output.fastq input.fastq
质量过滤的算法
cutadapt 使用的质量过滤的算法和bwa 一致,假设一段序列质量编码为
42, 40, 26, 27, 8, 7, 11, 4, 2, 3
质量过滤的阈值为10,则首先减去10
32, 30, 16, 17, -2, -3, 1, -6, -8, -7
从末端开始累加,
(70), (38), 8, -8, -25, -23, -20, -21, -15, -7
因为-25 最小,所以保留-25 之前的碱基, 即保留前4位碱基
7) 去除polyA 尾的序列
当adapter 序列中包含重复序列时,推荐使用A{10}这种写法,
代表10个A,所以可以用来去除序列末端的polyA尾,用法:
cutadapt -a "A{10}" -o output.fastq input.fastq
注意的是,当序列末尾出现10个或者10个以上的A时,都会被去除
input.fastq 的内容: