获得重复区域repeat(SINE\LINE)等区域的bed文件_fanyucai

个人资料

微博

正文字体大小：大中小

获得重复区域repeat(SINE\LINE)等区域的bed文件

(2014-11-28 13:29:07)

分类：生物信息学

最近在处理甲基化的数据，需要对人类重复区域的甲基化进行统计，目前UCSC上重复区域的注释文件是由repeatmask程序处理的。关于重复区域呢，目前又可以分为以下10类：

具体参见：http://genome.ucsc.edu/cgi-bin/hgTables

参见的一篇发表在Genome Research上的文章，主要选择的统计区域为：SINE、LINE、LTR、DNA、Simple repeats、Low complexity repeats与Satellite repeats等7类。得到以上的7类bed文件，具体操作如下：

下载文件：rmsk.txt.gz （27-Apr-2009 14:55 137M）

文件链接：http://hgdownload.soe.ucsc.edu/goldenPath/hg19/database/

解压后运行：

grep LINE rmsk.txt | awk -F"\t" '{print $6,$7,$8,$10}' |sed 's/ /\t/g'>LINE.bed

grep Simple_repeat rmsk.txt |awk -F"\t" '{print $6,$7,$8,$10}'|sed 's/ /\t/g' >Simple_repeat.bed

grep SINE rmsk.txt |awk -F"\t" '{print $6,$7,$8,$10}' |sed 's/ /\t/g'>SINE.bed

grep LTR rmsk.txt |awk -F"\t" '{print $6,$7,$8,$10}'|sed 's/ /\t/g'>LTR.bed

grep DNA rmsk.txt |awk -F"\t" '{print $6,$7,$8,$10}'|sed 's/ /\t/g'>DNA.bed

grep Satellite rmsk.txt |awk -F"\t" '{print $6,$7,$8,$10}'|sed 's/ /\t/g'>Satellite.bed

grep Low_complexity rmsk.txt |awk -F"\t" '{print $6,$7,$8,$10}'|sed 's/ /\t/g'>Low_complexity.bed

################

输出结果：

第一列为染色体信息

第二列为起点

第三列为重点

第四列为标注的正负链

第五列为分类名称

＝＝＝＝＝＝＝＝＝＝

当然可以根据你的需求定义顺序。

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report