加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

HiC数据分析

(2019-07-30 09:10:38)
标签:

hic

分类: bioinformatics

件安装


主要是编辑系统文件:

PREFIX = /gpfs02/home/jingjing/software/HiC-Pro-master

BOWTIE2_PATH = /gpfs01/software/bio/bowtie2-2.2.4

SAMTOOLS_PATH = /gpfs01/software/bio/samtools-1.7

R_PATH = /gpfs02/software/general/R-3.5.0/bin

PYTHON_PATH = ~/miniconda2/bin/

CLUSTER_SYS = LSF


安装:

make configure

make install



软件使用:


https://yiqixie.com/d/loadimage?id=-7922940130979783570


其实思路大概包含以下几步:


比对,过滤,挑选,建立contract map,然后做normalization


优点

1. 在处理比对结果的时候加入了并行化,其实是抄概念,就是分割比对结果,多核处理。

2. 在处理reads的时候,多处理了一部分junction reads的情况。

3. 在存储最终结果的时候采用了sparse 矩阵来降低存储需求。

4. 多了一个点 就是 处理SNP分成父母本的情况。




运行:


1. 准备index文件


bowtie2-build 1.fa,2.fa,...,MT.fa human_GRCh37


2. 准备annotation文件


主要有两个:

第一个是:HindIII_resfrag_hg19.bed   主要通过软件包里面script

生成

python /gpfs01/software/bio/HiC-Pro-2.11.0/HiC-Pro_2.11.1/bin/utils/digest_genome.py -r hindiii -o HindIII_resfrag_hg19.bed /gpfs02/home/jingjing/software/hicup_v0.7.1/test_dataset/genome/all.fa


第二个是基因组每个常染色体长度文件,chrom_hg19.sizes


这个主要通过:java compute_lenght_scaffold all.fa chrom_hg19.sizes


https://yiqixie.com/d/loadimage?id=-5450699779765260981


3. 编辑配置文件


https://yiqixie.com/d/loadimage?id=7088495360904959999

https://yiqixie.com/d/loadimage?id=6174709079150370016


主要需要编辑的地方:

1):index的位置

2):index的名字

3):genome size文件

4):genome fragment文件




4. 运行HiC-pro


/gpfs01/software/bio/HiC-Pro-2.11.0/HiC-Pro_2.11.1/bin/HiC-Pro -i test_data/ -o HiC-Pro_testop_2.11.1_all -c config_test_latest.txt  其中参数i是原始数据位置,但是数据要分级存放


https://yiqixie.com/d/loadimage?id=-2753044411908684459


运行过程中的进度都会显示。



5. 并行化运行

需要添加参数 : -p

/gpfs01/software/bio/HiC-Pro-2.11.0/HiC-Pro_2.11.1/bin/HiC-Pro -i data/  -o HiC-Pro_test_1 -c config_test_latest.txt -p

运行结束会分别生成两部的脚本文件:
HiCPro_step1_align_split.sh
HiCPro_step2_align_split.sh

//只是第二个提交运行程序脚本,好像生成的有点问题,不太完全,自己手动改一下就是

然后分别提交就行,其实主要是第一步生成了很多的比对脚本而已。

6. 结果解读



1)   原始比对率


trimmed read mapping: 是指把一些本来unaligned的reads去掉一些头和尾重新比对,这一部分主要面向junction reads

https://yiqixie.com/d/loadimage?id=-8883964820692463199


2)reads pair对之间比对结果


这个主要是看pair的比对信息。


https://yiqixie.com/d/loadimage?id=8820168171857113056


3) 过滤不合适的interaction pair比例


过滤掉的read pair有:dumpled pair, self-cycle pair,single end,dangling end....

https://yiqixie.com/d/loadimage?id=-240651085411551101

4) 用的read pair的分布情况


主要分成:cis和trans。cis包含短的和长的距离。以及距离的分布

https://yiqixie.com/d/loadimage?id=6984581334982123604


https://yiqixie.com/d/loadimage?id=-4105646298717722634


5)关联矩阵


HiC-pro默认输出是sparse 矩阵的格式,首先需要一个bed文件定义chromosome的位置,以及bin的ID:

https://yiqixie.com/d/loadimage?id=-2059373371010146449


在matirx中,显示interaction的强度,前两个分别是bin的ID。

https://yiqixie.com/d/loadimage?id=-6944318325205299541

iced中存储normalization之后的结果。











0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有