加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

cutadapter 软件使用之二

(2017-11-22 10:25:44)
分类: 生信软件使用
 
5) 去除双端测序数据的adapter 序列
用法:
cutadapt -a ADAPTER_FWD -A ADAPTER_REV -o out.1.fastq -p out.2.fastq reads.1.fastq reads.2.fastq
 
备注:
cutadapt 在搜寻引物时, 默认允许错配和插入缺失, 比如
adapter 序列是ADAPTER, 此时
ADABTER    有一个错配,也会被剪切掉
ADAPTR      有一个缺失,deletion ,也会被剪切掉
ADAPPTER  有一个插入,也会被剪切掉
 
可以采用-e  指定错配的比例, 默认-e 为0.1, 比如adapter  序列长度为9,允许的错配数为 9 * 0.1 = 0.9, 然后直接向下取整后为0, 所以允许的错配数为0;
 
可以采用-no-indels 来禁止插入和缺失,减少错误的剪切情况
因为cutadapt  允许部分匹配,比如 adapter 序列为ADAPTER , 测序得到的 序列为ATCGATGCTADCGAGCGC,在序列的中间位置AD是adapter 序列的一部分, 此时会把AD以及之后的序列全部剪切掉,这种情况就属于错误的剪切,所以cutadapt 默认必须至少有3个碱基匹配时才会认为是adapter 序列,然后进行切除, 这个参数可以通过 --overlap  参数来指定默认的3适合绝大多数的情况
 
6) 去除低质量序列
使用-q/--trim-qualities 过滤低质量序列, 在去除adapter序列之前就开始过滤低质量序列;默认使用phred quality+33 的方式识别序列质量,如果为phred quality+64的方式,则添加--quality-base=64 参数
用法:
cutadapt -q 10 -o output.fastq input.fastq
 
默认只过滤3端的低质量序列, 如果想要过滤5端低质量序列,需要用逗号隔开
cutadapt -q 15,10 -o output.fastq input.fastq
 5端用15进行过滤,3端用10进行过滤
 
质量过滤的算法
cutadapt 使用的质量过滤的算法和bwa 一致,假设一段序列质量编码为
42, 40, 26, 27, 8, 7, 11, 4, 2, 3
 
质量过滤的阈值为10,则首先减去10
32, 30, 16, 17, -2, -3, 1, -6, -8, -7
 
从末端开始累加,
(70), (38), 8, -8, -25, -23, -20, -21, -15, -7
 
因为-25 最小,所以保留-25 之前的碱基, 即保留前4位碱基
 
7) 去除polyA 尾的序列
当adapter 序列中包含重复序列时,推荐使用A{10}这种写法, 代表10个A,所以可以用来去除序列末端的polyA尾,用法:
cutadapt -a "A{10}" -o output.fastq input.fastq
注意的是,当序列末尾出现10个或者10个以上的A时,都会被去除
input.fastq 的内容:

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有