Bowtie使用过程
(2013-12-27 19:14:43)
标签:
it |
分类: Bioinformatics |
今天下载了拟南芥的基因组,这里是TAIR10,由于要拿sRNA与其比对,所以我选择了Bowtie工具。但对于新入手的我来说,还是折腾了一番。Bowtie适合于将短序列拼接到大的模板序列上,尤其是基因组。模板的尺寸不能小于1025碱基,而reads的长度不能超过1024碱基。Bowtie设计思路是,1)短序列在基因组上至少有一处最适匹配,
2)大部分的短序列的质量是比较高,3)短序列在基因组上最适匹配的位置最好只有一处。Bowtie通过映射的方法,把RNA-seq技术处理出来的reads通过比对方法映射到我们的reference
genome上面,然后获取相应的比对信息。其中reads应该为fastq格式的,reference genome应该为fasta格式。
对reference文件建立索引:
在ubuntu13.10下,安装了Bowtie工具,然后把TAIR10文件拷到了Bowtie的目录下面,这里,我的源文件是TAIR10_chr_all.fas,所以输入指令bowtie-build TAIR10_chr_all.fas
TAIR10。然后就会生成对应的六个文件,此时就可以把这六个文件放到专门存放该数据的文件夹下面indexes。在此我们就把索引建立完毕了。
将reads.fa比对到建立的索引上面:
bowtie -f -a -m 20 -v 1 --al Reads_aligned --un Reads_unaligned --norc GENOME.fa
Reads.fa Reads.bwt 2> log
- 注:
- -f 指定query文件为fasta格式
- -a 保留所有比对结果
- -m 指定最大比对到基因组的次数
- -v 允许最大错配数,为[0-2]
- --al 能map到GENOME的reads,fasta格式
- --un 不能map到GENOME的reads,fasta格式
- --norc 不输出匹配到负链的结果;如果不想输出比对到正链的结果,则用"--nofw"。不指定该选项则正负链结果都输出
- 后面依次写上GENOME索引文件,Reads文件,输出结果文件Reads.bwt,日志文件log。
bowtie输出结果的说明:
1
2 |
sample001_x75 + Chr1 12453 ATCGGCCAATTACGGACTTAA
IIIIIIIIIIIIIIIIIIIII 4 9:G>T
|
- 1. query id
- 2. "+"表示正向match;"-"表示对query作反向互补后match
- 3. reference id
- 4. 第2列为"+"时,表示query 第一个碱基map到reference(5'->3')上的位置,0-based(以0开始);第2列为"-"时,表示query的反向互补序列第一 个碱基map到reference(5'->3')上的位置,0-based(以0开始)
- 5. 如果第2列为"+",则和query序列一致;否则,和query序列反向互补
- 6. 质量文件,如果query文件为fasta格式,则无法获取质量文件,用I代替,I的数量与query序列长度一致
- 7. 当前query能map到GENOME的4个不同位置
- 8. 如果存在第8列,表示有mismatch。第8列可以分为三个部分,最左端的数字,中间的碱基为reference碱基,最右端的碱基为query碱基,下面分情况讨论:
-
第2列为"+"时:最左端的数字9表示query从5'端数起,第10个碱基为"T",而对应的reference为"G";
第2列为"-"时:最左端的数字9表示query先作反向互补,然后从3'端数起,第10个碱基为"T",而对应的reference为"G";
前一篇:单端测序和双端测序的关系
后一篇:bowtie aligner