千人基因组数据的重比对分析_fanyucai

http://blog.sina.com.cn/u/2214034580

首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

千人基因组数据的重比对分析

(2018-09-30 16:42:06)

标签：

1000genomes

cram

bam

grch38

gatk

分类：文献推荐

Zheng-Bradley X, Streeter I, Fairley S, et al. Alignment of 1000 Genomes Project reads to reference assembly GRCh38[J]. GigaScience, 2017, 6(7): 1-8.

文章分析流程图如下：

1:数据准备：

数据下载European Nucleotide Archive (ENA)使用的软件是ReseqTrack（https://github.com/EMBL-EBI-GCA/reseqtrack/blob/master/scripts/metadata/load_from_ena.pl）

2:比对

使用bwakit-0.7.12，在比对的时候是将测序数据分割成5M reads大小的文件，比对完成后进行排序合并使用的分析软件是 BioBamBam

3:BAM文件碱基质量修正

该步骤主要是减少由于测序仪器带来测序仪器的偏向性

4:此外在缺失碱基的周围往往存在很多假阳性的突变，需要Indel-Realigner这里使用了已知的Indel变异结果： (i) the 1000 Genomes Project phase 3 indels produced by Shapeit2 with co- ordinates lifted to GRCh38 by NCBI’s Remapper [17]; and (ii) the Mills and Devine’s indel set [18], lifted to GRCh38 by CrossMap [19] and provided by Alison Meynert from IGMM in Edinburgh (personal communication).

5:最后是去除测序PCR冗余也是使用的BioBamBam软件

6:压缩BAM到CRAM，使用的软件是cramtools 3.0

7:分析比对质量和覆盖度使用的是bamUtil（https://genome.sph.umich.edu/wiki/BamUtil）

8:对参考序列的处理：下载GRCh38，运行脚本seq_cache_populate.pl生成缓存，该脚本属于samtools工具生成带有MD5值的目录树，还需要设置HTSlib与CRAMTools 所需要环境变量

9:从CRAM到bam

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report

前一篇：SAM格式学习笔记

后一篇：肿瘤突变负荷(TumorMutationBurden，TMB)

新浪BLOG意见反馈留言板　欢迎批评指正