在linux下使用methylKit处理bismark产生的sam比对格式的数据

标签:
sam比对格式methylkit硫化测序methylc-seqbismarkit |
分类: 编程语言 |
MethylKit是一个对硫化测序结果,即sam格式文件处理的一个R工具包,具体methylKit安装步骤,这里就不多说了,网址为:http://code.google.com/p/methylkit/,具体见installation部分,下面着重介绍其用法:(linux高性能计算机下运行)
1.首先准备好所需要的数据:
bismark生成的数据:test1.sam test2.sam
#若有问题见bismark软件http://www.bioinformatics.babraham.ac.uk/projects/bismark/#
2.对sam格式数据按染色体排序
linux下命令为:
grep -r '^[[:space:]]*@ test1.sam | sort -k3,3 -k4,4n > test1.sorted.sam
grep -r '^[[:space:]]*@ test2.sam | sort -k3,3 -k4,4n > test2.sorted.sam
#注:在sort时,可能会提示临时文件太大,磁盘空间不够,这时解决的办法就是在sort后加上“-T 路径”参数,指定sort时临时文件的路径,本人就碰到过这个问题。
3.进入R
>library(methylKit)
>read.bismark("/share/nas1/fansh/wuzefeng/softs/bismark_v0.7.9/test1.sorted.sam","test1",assembly="TAIR10",save.folder="/share/nas1/fansh/wuzefeng/softs/bismark_v0.7.9/R",save.context="CpG",read.context="none")
>read.bismark("/share/nas1/fansh/wuzefeng/softs/bismark_v0.7.9/test2.sorted.sam","test2",assembly="TAIR10",save.folder="/share/nas1/fansh/wuzefeng/softs/bismark_v0.7.9/R",save.context="CpG",read.context="none")
# 说明:第一个逗号前面是第2步得到的俩个文件的路径。"test1 or test2"是指定样品编号,assembly是指定你研究物种的组装参考标志,例如:拟南芥为TAIR10。save.folder 指定生成文件(含有每个碱基甲基化水平)的路径,save.context指定你研究的甲基化类型(包括CpG,CHH,CHG)
4.将第三步生成的test1_CpG.txt和test2_CpG.txt两个文件拷贝到methylKit路径下(在拷贝之前可以先在methylkit目录下建立一个文件夹如:test)的test文件夹下.(所以先得找到methylKit安装目录)
$
5.进入R
>library(methyKit)
>file.list=list(system.file("test","text1_CpG.txt",package="methyKit"),system.file("test","text2_CpG.txt",package="methyKit"))
#这步是把俩个文件形成一个列表list#
>myobj=read(file.list,sample.id=list("test1","test2"),assembly=""TAIR10",pipline="amp",treatment=c(1,0))
#这步是把列表里的数据读进去
>getMethylationStats(myobj[[1]],plot=T,both.strand=F)
#这步是画出甲基化水平的直方图
http://s1/mw690/5fa432b4ge0fba0282900&690
其他功能就不一一列举了,所以:想用methylKit处理bismark生成的sam格式数据,必须得正确安装methylKit,然后是数据的导入这步也很重要。ok,就写到这里,有什么问题可以留言!水平有限,错误难免,敬请批评指正!