加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

【T】每日一生信--使用rfam进行ncRNA注释

(2014-07-23 15:52:46)
标签:

rfam

ncrna

分类: 基因预测prediction

该博文已整理到新地址:http://qinqianshan.com/ncrna-annotation-rfam/

1. rfam 简介

Rfam 是一个数据库,用于鉴定non-coding RNAs。由多重序列比对multiple sequence alignments)和协方差模型covariance modelsCMs)代表。Rfam的主要目的是使用敏感BLAST过滤器连同CMs,对核苷酸序列,特别是完整基因组,注释已知RNA家族的新成员。具有一个非常广泛的分类学区域的少数家族(例如,tRNArRNA)提供了大多数的序列注释,同时大多数Rfam家族(例如,snoRNAsmiRNAs)具有有限的分类范围,并提供了有限数目的注释。

Rfam 11版本中有包含383,004条序列和2,208cms(2,208rfam家族)

其官网:http://rfam.sanger.ac.uk

其参考文献:Rfam 11.0: 10 years of RNA families

 

2. rfam 安装

说明文档:ftp://ftp.ebi.ac.uk/pub/databases/Rfam/CURRENT/rfam_scan/Expandednotesonrunningrfam_scan.pl.txt

 

2.1 下载 rfam_scan.pl 软件

下载最新版本的 rfam_scan.pl 软件

$ cd

$ mkdir /sam/rfam

$ cd /sam/rfam

$ wget ftp://ftp.sanger.ac.uk/pub/databases/Rfam/CURRENT/rfam_scan/rfam_scan.pl

$ chmod 755 rfam_scan.pl

$ echo 'PATH=$PATH:/sam/rfam' >> ~/.bashrc

$ source ~/.bashrc

 

2.2 安装 infernal

rfam_scan.pl 的运行需要infernal 软件。此外还需要 Perl 5.6 及以上版本,NCBI BLAST 程序 Bioperl

rfam 11 版本的rfam_scan.pl 需要安装 infernal 1.0 (1.1版本会报错)

 

$ wget http://selab.janelia.org/software/infernal/infernal-1.0.2.tar.gz

$ tar zxf infernal-1.0.2.tar.gz

$ cd infernal-1.0.2

$ ./configure --prefix=/sam/infernal-1.0.2 && make && make install

$ echo 'PATH=$PATH:/sam/infernal-1.0.2/bin/' >> ~/.bashrc

$ source ~/.bashrc

 

2.3 下载并安装 rfam blast cm 数据库

blast 数据库包含了所有 rfam 家族的核酸序列。并且这些序列进行以 90% 的一致性进行了去冗余处理。

cm 数据库包含了所有的rfam 家族的 covariance models

rfam 11 版本中包含了383,004 条序列和 2,208 cms( 2,208 rfam 家族)

$ wget ftp://ftp.sanger.ac.uk/pub/databases/Rfam/CURRENT/Rfam.fasta.gz

$ gzip -d Rfam.fasta.gz

$ formatdb -i Rfam.fasta -p F

$ wget ftp://ftp.sanger.ac.uk/pub/databases/Rfam/CURRENT/Rfam.cm.gz

$ gzip -d Rfam.cm.gz

 

3. 使用RFAM

常用例子:

$ rfam_scan.pl -blastdb /sam/rfam/Rfam.fasta /sam/rfam/Rfam.cm genome.fasta -o rfam.gff3

上述例子中,软件将调用 blast query 序列比对到Rfam.fasta blast 数据库中,去寻找相应的 ncRNA 的相似序列,使用的 blast evalue 的阈值是 0.01 然后将 blast 的结果再调用 cmsearch 使用 Rfam.cm 进行验证,减少假阳性概率。如果不使用 blast,仅使用 cmsearch 则速度极慢。

 

   由于rfam_scan.pl运行速度很慢,如果序列条数较多,基因组较大,则推荐将序列进行分割后并行运算。

 

 

Rfam release 11.0

-----------------

(1) 246 new Rfam families have been added to Rfam. The majority of

    these new families are lncRNA and bacterial sRNAs. Counts for the

    new families break down into the following types:

    

             Cis-reg;

        23     Gene;

             Gene; antisense;

             Gene; antitoxin;

        144  Gene; lncRNA;

        11     Gene; miRNA;

             Gene; ribozyme;

             Gene; snRNA; snoRNA; CD-box;

        56     Gene; sRNA;

 

 

参考资料:

宠辱不惊,一心问学! http://www.chenlianfu.com/?p=2185(超赞)

云之南  http://fhqdddddd.blog.163.com/blog/static/18699154201462213453696/

说明文档:ftp://ftp.ebi.ac.uk/pub/databases/Rfam/CURRENT/rfam_scan/Expandednotesonrunningrfam_scan.pl.txt(具体个性化参数设置可以参见这里)

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有