Bowtie使用过程_松樱

http://blog.sina.com.cn/u/1833654973

首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

Bowtie使用过程

(2013-12-27 19:14:43)

标签：

it

分类： Bioinformatics

今天下载了拟南芥的基因组，这里是TAIR10，由于要拿sRNA与其比对，所以我选择了Bowtie工具。但对于新入手的我来说，还是折腾了一番。Bowtie适合于将短序列拼接到大的模板序列上，尤其是基因组。模板的尺寸不能小于1025碱基，而reads的长度不能超过1024碱基。Bowtie设计思路是，1）短序列在基因组上至少有一处最适匹配， 2）大部分的短序列的质量是比较高，3）短序列在基因组上最适匹配的位置最好只有一处。Bowtie通过映射的方法，把RNA-seq技术处理出来的reads通过比对方法映射到我们的reference genome上面，然后获取相应的比对信息。其中reads应该为fastq格式的，reference genome应该为fasta格式。

对reference文件建立索引：

在ubuntu13.10下，安装了Bowtie工具，然后把TAIR10文件拷到了Bowtie的目录下面，这里，我的源文件是TAIR10_chr_all.fas，所以输入指令bowtie-build TAIR10_chr_all.fas TAIR10。然后就会生成对应的六个文件，此时就可以把这六个文件放到专门存放该数据的文件夹下面indexes。在此我们就把索引建立完毕了。

将reads.fa比对到建立的索引上面：

bowtie -f -a -m 20 -v 1 --al Reads_aligned --un Reads_unaligned --norc GENOME.fa Reads.fa Reads.bwt 2> log

注：
-f 指定query文件为fasta格式
-a 保留所有比对结果
-m 指定最大比对到基因组的次数
-v 允许最大错配数，为[0-2]
--al 能map到GENOME的reads，fasta格式
--un 不能map到GENOME的reads，fasta格式
--norc 不输出匹配到负链的结果；如果不想输出比对到正链的结果，则用"--nofw"。不指定该选项则正负链结果都输出
后面依次写上GENOME索引文件，Reads文件，输出结果文件Reads.bwt，日志文件log。

bowtie输出结果的说明：

1 2	sample001_x75 + Chr1 12453 ATCGGCCAATTACGGACTTAA IIIIIIIIIIIIIIIIIIIII 4 9:G>T 1 2 3 4 5 6 7 8

1. query id
2. "+"表示正向match；"-"表示对query作反向互补后match
3. reference id
4. 第2列为"+"时，表示query 第一个碱基map到reference(5'->3')上的位置，0-based(以0开始)；第2列为"-"时，表示query的反向互补序列第一个碱基map到reference(5'->3')上的位置，0-based(以0开始)
5. 如果第2列为"+"，则和query序列一致；否则，和query序列反向互补
6. 质量文件，如果query文件为fasta格式，则无法获取质量文件，用I代替，I的数量与query序列长度一致
7. 当前query能map到GENOME的4个不同位置
8. 如果存在第8列，表示有mismatch。第8列可以分为三个部分，最左端的数字，中间的碱基为reference碱基，最右端的碱基为query碱基，下面分情况讨论：
第2列为"+"时：最左端的数字9表示query从5'端数起，第10个碱基为"T"，而对应的reference为"G";
第2列为"-"时：最左端的数字9表示query先作反向互补，然后从3'端数起，第10个碱基为"T"，而对应的reference为"G";

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report

前一篇：单端测序和双端测序的关系

后一篇：bowtie aligner

新浪BLOG意见反馈留言板　欢迎批评指正