加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

千人基因组数据的重比对分析

(2018-09-30 16:42:06)
标签:

1000genomes

cram

bam

grch38

gatk

分类: 文献推荐
Zheng-Bradley X, Streeter I, Fairley S, et al. Alignment of 1000 Genomes Project reads to reference assembly GRCh38[J]. GigaScience, 2017, 6(7): 1-8.
文章分析流程图如下:
千人基因组数据的重比对分析
1:数据准备:
数据下载European Nucleotide Archive (ENA)使用的软件是ReseqTrack(https://github.com/EMBL-EBI-GCA/reseqtrack/blob/master/scripts/metadata/load_from_ena.pl)

2:比对
使用bwakit-0.7.12,在比对的时候是将测序数据分割成5M reads大小的文件,比对完成后进行排序合并使用的分析软件是 BioBamBam
千人基因组数据的重比对分析
3:BAM文件碱基质量修正
该步骤主要是减少由于测序仪器带来测序仪器的偏向性
千人基因组数据的重比对分析

4:此外在缺失碱基的周围往往存在很多假阳性的突变,需要Indel-Realigner这里使用了已知的Indel变异结果: (i) the 1000 Genomes Project phase 3 indels produced by Shapeit2 with co- ordinates lifted to GRCh38 by NCBI’s Remapper [17]; and (ii) the Mills and Devine’s indel set [18], lifted to GRCh38 by CrossMap [19] and provided by Alison Meynert from IGMM in Edinburgh (personal communication).
千人基因组数据的重比对分析
5:最后是去除测序PCR冗余也是使用的BioBamBam软件
千人基因组数据的重比对分析
6:压缩BAM到CRAM,使用的软件是cramtools 3.0
千人基因组数据的重比对分析
7:分析比对质量和覆盖度使用的是bamUtil(https://genome.sph.umich.edu/wiki/BamUtil)

8:对参考序列的处理:下载GRCh38,运行脚本seq_cache_populate.pl生成缓存,该脚本属于samtools工具生成带有MD5值的目录树,还需要设置HTSlib与CRAMTools 所需要环境变量
千人基因组数据的重比对分析
9:从CRAM到bam
千人基因组数据的重比对分析

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有