千人基因组数据的重比对分析

标签:
1000genomescrambamgrch38gatk |
分类: 文献推荐 |
Zheng-Bradley X, Streeter I, Fairley S, et al. Alignment
of 1000 Genomes Project reads to reference assembly GRCh38[J].
GigaScience, 2017, 6(7): 1-8.
文章分析流程图如下:

1:数据准备:
数据下载European Nucleotide Archive
(ENA)使用的软件是ReseqTrack(https://github.com/EMBL-EBI-GCA/reseqtrack/blob/master/scripts/metadata/load_from_ena.pl)
2:比对
使用bwakit-0.7.12,在比对的时候是将测序数据分割成5M
reads大小的文件,比对完成后进行排序合并使用的分析软件是 BioBamBam
该步骤主要是减少由于测序仪器带来测序仪器的偏向性
4:此外在缺失碱基的周围往往存在很多假阳性的突变,需要Indel-Realigner这里使用了已知的Indel变异结果:
(i) the 1000 Genomes Project phase 3 indels produced by Shapeit2
with co- ordinates lifted to GRCh38 by NCBI’s Remapper [17]; and
(ii) the Mills and Devine’s indel set [18], lifted to GRCh38 by
CrossMap [19] and provided by Alison Meynert from IGMM in Edinburgh
(personal communication).

7:分析比对质量和覆盖度使用的是bamUtil(https://genome.sph.umich.edu/wiki/BamUtil)
8:对参考序列的处理:下载GRCh38,运行脚本seq_cache_populate.pl生成缓存,该脚本属于samtools工具生成带有MD5值的目录树,还需要设置HTSlib与CRAMTools
所需要环境变量
