HiC数据分析_我想静静

http://blog.sina.com.cn/u/1253094201

首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

HiC数据分析

(2019-07-30 09:10:38)

标签：

hic

分类： bioinformatics

软件安装：

主要是编辑系统文件：

PREFIX = /gpfs02/home/jingjing/software/HiC-Pro-master

BOWTIE2_PATH = /gpfs01/software/bio/bowtie2-2.2.4

SAMTOOLS_PATH = /gpfs01/software/bio/samtools-1.7

R_PATH = /gpfs02/software/general/R-3.5.0/bin

PYTHON_PATH = ~/miniconda2/bin/

CLUSTER_SYS = LSF

安装：

make configure

make install

软件使用：

https://yiqixie.com/d/loadimage?id=-7922940130979783570

其实思路大概包含以下几步：

比对，过滤，挑选，建立contract map，然后做normalization

优点：

1. 在处理比对结果的时候加入了并行化，其实是抄概念，就是分割比对结果，多核处理。

2. 在处理reads的时候，多处理了一部分junction reads的情况。

3. 在存储最终结果的时候采用了sparse 矩阵来降低存储需求。

4. 多了一个点就是处理SNP分成父母本的情况。

运行：

1. 准备index文件

bowtie2-build 1.fa,2.fa,...,MT.fa human_GRCh37

2. 准备annotation文件

主要有两个：

第一个是：HindIII_resfrag_hg19.bed 主要通过软件包里面script

生成

python /gpfs01/software/bio/HiC-Pro-2.11.0/HiC-Pro_2.11.1/bin/utils/digest_genome.py -r hindiii -o HindIII_resfrag_hg19.bed /gpfs02/home/jingjing/software/hicup_v0.7.1/test_dataset/genome/all.fa

第二个是基因组每个常染色体长度文件，chrom_hg19.sizes

这个主要通过：java compute_lenght_scaffold all.fa chrom_hg19.sizes

https://yiqixie.com/d/loadimage?id=-5450699779765260981

3. 编辑配置文件

https://yiqixie.com/d/loadimage?id=7088495360904959999

https://yiqixie.com/d/loadimage?id=6174709079150370016

主要需要编辑的地方：

1）：index的位置

2）：index的名字

3）：genome size文件

4）：genome fragment文件

4. 运行HiC-pro

/gpfs01/software/bio/HiC-Pro-2.11.0/HiC-Pro_2.11.1/bin/HiC-Pro -i test_data/ -o HiC-Pro_testop_2.11.1_all -c config_test_latest.txt 其中参数i是原始数据位置，但是数据要分级存放

https://yiqixie.com/d/loadimage?id=-2753044411908684459

运行过程中的进度都会显示。

5. 并行化运行

需要添加参数： -p

/gpfs01/software/bio/HiC-Pro-2.11.0/HiC-Pro_2.11.1/bin/HiC-Pro -i data/ -o HiC-Pro_test_1 -c config_test_latest.txt -p

运行结束会分别生成两部的脚本文件：

HiCPro_step1_align_split.sh

HiCPro_step2_align_split.sh

//只是第二个提交运行程序脚本，好像生成的有点问题，不太完全，自己手动改一下就是

然后分别提交就行，其实主要是第一步生成了很多的比对脚本而已。

6. 结果解读

1) 原始比对率

trimmed read mapping: 是指把一些本来unaligned的reads去掉一些头和尾重新比对，这一部分主要面向junction reads