加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

Bowtie使用过程

(2013-12-27 19:14:43)
标签:

it

分类: Bioinformatics
今天下载了拟南芥的基因组,这里是TAIR10,由于要拿sRNA与其比对,所以我选择了Bowtie工具。但对于新入手的我来说,还是折腾了一番。Bowtie适合于将短序列拼接到大的模板序列上,尤其是基因组。模板的尺寸不能小于1025碱基,而reads的长度不能超过1024碱基。Bowtie设计思路是,1)短序列在基因组上至少有一处最适匹配, 2)大部分的短序列的质量是比较高,3)短序列在基因组上最适匹配的位置最好只有一处。Bowtie通过映射的方法,把RNA-seq技术处理出来的reads通过比对方法映射到我们的reference genome上面,然后获取相应的比对信息。其中reads应该为fastq格式的,reference genome应该为fasta格式。

对reference文件建立索引:
在ubuntu13.10下,安装了Bowtie工具,然后把TAIR10文件拷到了Bowtie的目录下面,这里,我的源文件是TAIR10_chr_all.fas,所以输入指令bowtie-build TAIR10_chr_all.fas TAIR10。然后就会生成对应的六个文件,此时就可以把这六个文件放到专门存放该数据的文件夹下面indexes。在此我们就把索引建立完毕了。

将reads.fa比对到建立的索引上面:
bowtie -f -a -m 20 -v 1 --al Reads_aligned --un Reads_unaligned --norc GENOME.fa Reads.fa Reads.bwt 2> log
  • 注:
  • -f 指定query文件为fasta格式
  • -a 保留所有比对结果
  • -m 指定最大比对到基因组的次数
  • -v 允许最大错配数,为[0-2]
  • --al 能map到GENOME的reads,fasta格式
  • --un 不能map到GENOME的reads,fasta格式
  • --norc 不输出匹配到负链的结果;如果不想输出比对到正链的结果,则用"--nofw"。不指定该选项则正负链结果都输出
  • 后面依次写上GENOME索引文件,Reads文件,输出结果文件Reads.bwt,日志文件log。

bowtie输出结果的说明:
1
2
sample001_x75 + Chr1 12453 ATCGGCCAATTACGGACTTAA IIIIIIIIIIIIIIIIIIIII 4 9:G>T
     1        2  3     4             5                      6          7   8
  • 1. query id
  • 2. "+"表示正向match;"-"表示对query作反向互补后match
  • 3. reference id
  • 4. 第2列为"+"时,表示query 第一个碱基map到reference(5'->3')上的位置,0-based(以0开始);第2列为"-"时,表示query的反向互补序列第一 个碱基map到reference(5'->3')上的位置,0-based(以0开始)
  • 5. 如果第2列为"+",则和query序列一致;否则,和query序列反向互补
  • 6. 质量文件,如果query文件为fasta格式,则无法获取质量文件,用I代替,I的数量与query序列长度一致
  • 7. 当前query能map到GENOME的4个不同位置
  • 8. 如果存在第8列,表示有mismatch。第8列可以分为三个部分,最左端的数字,中间的碱基为reference碱基,最右端的碱基为query碱基,下面分情况讨论:
  • 第2列为"+"时:最左端的数字9表示query从5'端数起,第10个碱基为"T",而对应的reference为"G";
    第2列为"-"时:最左端的数字9表示query先作反向互补,然后从3'端数起,第10个碱基为"T",而对应的reference为"G";


0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有