【Bowtie】bowtie 短序列比对工具详解(输出结果说明)
(2014-07-24 22:33:48)
标签:
bowtie |
分类: 【转】NGS算法 |
最近发现大家关心的问题是:bowtie用法、samtools用法、miRNA研究方法。下面我(流泪鱼)来给大家阐释一些个人的理解。
常见的短序列比对工具有很多,如fasta、blast、bowtie、shrimp、soap等。每个工具都有其自身的优点,但同时也具备了一些缺点。权衡利弊,我选择bowtie作为主要的短序列比对工具。它速度很快,比对结果也容易理解。
现在举个例子来探讨bowtie的使用方法:现在有GENOME.fa、高通量测序数据Reads.fa,我们希望将Reads.fa比对到基因组GENOME.fa上。
(一)、对Reference文件(GENOME.fa)建库
1 |
bowtie-build GENOME.fa GENOME.fa |
建库步骤可能需要1h甚至几个小时,建议在后台执行:
nohup bowtie-build GENOME.fa GENOME.fa &
(二)、将Reads.fa比对到GENOME.fa上,只能比对到正链,且匹配到基因组不多于20个不同位置,允许有1个错配
1 |
bowtie |
- 注:
- -f 指定query文件为fasta格式
- -a 保留所有比对结果
- -m 指定最大比对到基因组的次数
- -v 允许最大错配数,为[0-2]
- --al 能map到GENOME的reads,fasta格式
- --un 不能map到GENOME的reads,fasta格式
- --norc 不输出匹配到负链的结果;如果不想输出比对到正链的结果,则用"--nofw"。不指定该选项则正负链结果都输出
- 后面依次写上GENOME索引文件,Reads文件,输出结果文件Reads.bwt,日志文件log。
(三)、bowtie输出结果的说明
sample001_x75 |
+ |
Chr1 |
12453 |
ATCGGCCAATTACGGACTTAA |
IIIIIIIIIIIIIIIIIIIII |
4 |
9:G>T |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
sample001_x75 + Chr1 12453 ATCGGCCAATTACGGACTTAA
IIIIIIIIIIIIIIIIIIIII 4 9:G>T |
- 1. query id
- 2. "+"表示正向match;"-"表示对query作反向互补后match
- 3. reference id
- 4. 第2列为"+"时,表示query 第一个碱基map到reference(5'->3')上的位置,0-based(以0开始);第2列为"-"时,表示query的反向互补序列第一 个碱基map到reference(5'->3')上的位置,0-based(以0开始)
- 5. 如果第2列为"+",则和query序列一致;否则,和query序列反向互补
- 6. 质量文件,如果query文件为fasta格式,则无法获取质量文件,用I代替,I的数量与query序列长度一致
- 7. 当前query能map到GENOME的4个不同位置
- 8. 如果存在第8列,表示有mismatch。第8列可以分为三个部分,最左端的数字,中间的碱基为reference碱基,最右端的碱基为query碱基,下面分情况讨论:
-
第2列为"+"时:最左端的数字9表示query从5'端数起,第10个碱基为"T",而对应的reference为"G";
第2列为"-"时:最左端的数字9表示query先作反向互补,然后从3'端数起,第10个碱基为"T",而对应的reference为"G";