加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

按照染色体分割基因组

(2017-02-24 09:20:20)
分类: 生物信息
有时会需要把基因组按照染色体单独切割出来,或者需要把基因组染色体排序。
hg19的基因组是以chr10开始的,有时候不太方便。
实现的方法有很多种,这里简单贴上2种。
1)perl脚本
#!/usr/bin/env perl

use strict;

use warnings;

use utf8;



open(IN,"/pool/storage/bgi/test2/moruikang/hg19/hg19.fa")||die("can not open");

$/=">";

for(my $i=0;$i<93;$i++){

        my $DNA=;

        $DNA=~m/(.+)/;

        my $name=$1;

        open(OUT,">$name.fa")||die("can not open");

        $DNA=~m/(.+)>/s;

        my $result=$1;

        print OUT ">$result";

close OUT;


再用shell merge1-22,X Y M染色体
#!/bin/bash

for i in $(seq 1 22) X Y M;
do
        echo chr${i}.fa
        cat chr${i}.fa >> new-hg19.fa
done

2)awk命令
awk "/^>/{if(/chrY/){a=0}else{a=1}}{if(a==0)print}" hg19.fa > chrY.fa
这里如果提取chr1,chr2等的话,因为匹配原因会多提取比如chr10、chr11等染色体,所以chr1和chr2需要特殊对待。

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有