加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

获得重复区域repeat(SINE\LINE)等区域的bed文件

(2014-11-28 13:29:07)
分类: 生物信息学
最近在处理甲基化的数据,需要对人类重复区域的甲基化进行统计,目前UCSC上重复区域的注释文件是由repeatmask程序处理的。关于重复区域呢,目前又可以分为以下10类:
具体参见:http://genome.ucsc.edu/cgi-bin/hgTables
  • Short interspersed nuclear elements (SINE), which include ALUs
  • Long interspersed nuclear elements (LINE)
  • Long terminal repeat elements (LTR), which include retroposons
  • DNA repeat elements (DNA)
  • Simple repeats (micro-satellites)
  • Low complexity repeats
  • Satellite repeats
  • RNA repeats (including RNA, tRNA, rRNA, snRNA, scRNA, srpRNA)
  • Other repeats, which includes class RC (Rolling Circle)
  • Unknown
参见的一篇发表在Genome Research上的文章,主要选择的统计区域为:SINE、LINE、LTRDNASimple repeatsLow complexity repeats与Satellite repeats等7类。得到以上的7类bed文件,具体操作如下:
下载文件:rmsk.txt.gz (27-Apr-2009 14:55 137M)
文件链接:http://hgdownload.soe.ucsc.edu/goldenPath/hg19/database/

       解压后运行:

grep LINE rmsk.txt | awk -F"\t" '{print $6,$7,$8,$10}' |sed 's/ /\t/g'>LINE.bed

grep Simple_repeat rmsk.txt |awk  -F"\t" '{print $6,$7,$8,$10}'|sed 's/ /\t/g' >Simple_repeat.bed

grep SINE rmsk.txt |awk  -F"\t" '{print $6,$7,$8,$10}' |sed 's/ /\t/g'>SINE.bed

grep LTR rmsk.txt |awk  -F"\t" '{print $6,$7,$8,$10}'|sed 's/ /\t/g'>LTR.bed

grep DNA rmsk.txt |awk  -F"\t" '{print $6,$7,$8,$10}'|sed 's/ /\t/g'>DNA.bed

grep Satellite rmsk.txt |awk  -F"\t" '{print $6,$7,$8,$10}'|sed 's/ /\t/g'>Satellite.bed

grep Low_complexity rmsk.txt |awk  -F"\t" '{print $6,$7,$8,$10}'|sed 's/ /\t/g'>Low_complexity.bed

################
输出结果:
第一列为染色体信息
第二列为起点
第三列为重点
第四列为标注的正负链
第五列为分类名称
==========
当然可以根据你的需求定义顺序。











0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有