bwa学习笔记

分类: 生物信息学 |
1:关于bwa的比对学习(翻译自:http://bio-bwa.sourceforge.net/)
bwa分为三种比对方法分别为:BWA-backtrack(aln), BWA-SW(bwasw) and BWA-MEM(mem)如果你已经安装bwa查看运行帮助如下:
其中aln(适用Illumina短于:100bp的序列比对)剩下两种比较适用比较长的比对范围(70bp to 1Mbp)。Mem是比较新得算法速度快也比较精确但是受到很大质疑,在(70bp-100bp比对范围内mem优于aln)。
2:bwa比对由于样本量大的原因,需要使用nohup投递多个样本比对所以建议使用-f参数输出比对结果,这样可以导致比对不出错:
命令如下:
(比对)
nohup bwa aln -t 1 ./BWAIndex/genome.fa smple.fastq -f smple.sai &
(转化为sam格式)
nohup bwa samse -f sample.sam ./BWAIndex/genome.fa sample.sai sample.fastq&
(提取唯一比对结果)
samtools view -H sample.sam > header.sam
grep "XT:A:U" sample.sam | cat header.sam - | samtools view -Sb - > sample.bam
排序:
samtools sort sample.bam sample.sorted
建立index:
samtools index sample.sorted.bam
必须对bam文件进行默认情况下的排序后,才能进行index。否则会报错。建立索引后将产生后缀为.bai的文件,用于快速的随机处理。很多情况下需要有bai文件的存在,特别是显示序列比对情况下。
3:提取唯一比对结果:
如果一开始的输入文件是bam格式文件,请按照如下命令运行:
samtools view -H file.bam > header.sam
samtools view file.bam | grep "XT:A:U" | cat header.sam - | samtools view -Sb - > file.unique.bam
注意网上所示:
samtools view file.bam | grep "XT:A:U" > file.unique.bam(实际上还是sam格式的)
4:Bam=>sam
samtools view -h -o out.sam out.bam
sam=>Bam
samtools view -bS out.sam >out.bam