【T】每日一生信--使用rfam进行ncRNA注释
(2014-07-23 15:52:46)
标签:
rfamncrna |
分类: 基因预测prediction |
该博文已整理到新地址:http://qinqianshan.com/ncrna-annotation-rfam/
Rfam 是一个数据库,用于鉴定non-coding RNAs。由多重序列比对(multiple sequence alignments)和协方差模型(covariance models,CMs)代表。Rfam的主要目的是使用敏感BLAST过滤器连同CMs,对核苷酸序列,特别是完整基因组,注释已知RNA家族的新成员。具有一个非常广泛的分类学区域的少数家族(例如,tRNA和rRNA)提供了大多数的序列注释,同时大多数Rfam家族(例如,snoRNAs和miRNAs)具有有限的分类范围,并提供了有限数目的注释。
Rfam 11版本中有包含383,004条序列和2,208个cms(即2,208个rfam家族)
其官网:http://rfam.sanger.ac.uk。
其参考文献:Rfam 11.0: 10 years of RNA families。
2. rfam 安装
说明文档:ftp://ftp.ebi.ac.uk/pub/databases/Rfam/CURRENT/rfam_scan/Expandednotesonrunningrf
2.1 下载 rfam_scan.pl 软件
下载最新版本的 rfam_scan.pl 软件
$ cd
$ mkdir /sam/rfam
$ cd /sam/rfam
$ wget ftp://ftp.sanger.ac.uk/pub/databases/Rfam/CURRENT/rfam_scan/rfam_scan.pl
$ chmod 755 rfam_scan.pl
$ echo 'PATH=$PATH:/sam/rfam' >> ~/.bashrc
$ source ~/.bashrc
2.2 安装 infernal
rfam_scan.pl 的运行需要infernal 软件。此外还需要 Perl 5.6 及以上版本,NCBI BLAST 程序 和 Bioperl。
rfam 11 版本的rfam_scan.pl 需要安装 infernal 1.0 (1.1版本会报错):
$ wget http://selab.janelia.org/software/infernal/infernal-1.0.2.tar.gz
$ tar zxf infernal-1.0.2.tar.gz
$ cd infernal-1.0.2
$ ./configure --prefix=/sam/infernal-1.0.2 && make && make install
$ echo 'PATH=$PATH:/sam/infernal-1.0.2/bin/' >> ~/.bashrc
$ source ~/.bashrc
2.3 下载并安装 rfam 的 blast 和 cm 数据库
blast 数据库包含了所有 rfam 家族的核酸序列。并且这些序列进行以 90% 的一致性进行了去冗余处理。
cm 数据库包含了所有的rfam 家族的 covariance models。
rfam 11 版本中包含了383,004 条序列和 2,208 个 cms(即 2,208 个 rfam 家族)。
$ wget ftp://ftp.sanger.ac.uk/pub/databases/Rfam/CURRENT/Rfam.fasta.gz
$ gzip -d Rfam.fasta.gz
$ formatdb -i Rfam.fasta -p F
$ wget ftp://ftp.sanger.ac.uk/pub/databases/Rfam/CURRENT/Rfam.cm.gz
$ gzip -d Rfam.cm.gz
3. 使用RFAM
常用例子:
$ rfam_scan.pl -blastdb /sam/rfam/Rfam.fasta /sam/rfam/Rfam.cm genome.fasta -o rfam.gff3
上述例子中,软件将调用 blast 将 query 序列比对到Rfam.fasta 的 blast 数据库中,去寻找相应的 ncRNA 的相似序列,使用的 blast evalue 的阈值是 0.01 。 然后将 blast 的结果再调用 cmsearch 使用 Rfam.cm 进行验证,减少假阳性概率。如果不使用 blast,仅使用 cmsearch 则速度极慢。
Rfam release 11.0
-----------------
(1) 246 new Rfam families have been added to Rfam. The majority of
参考资料:
宠辱不惊,一心问学! http://www.chenlianfu.com/?p=2185(超赞)
云之南
说明文档:ftp://ftp.ebi.ac.uk/pub/databases/Rfam/CURRENT/rfam_scan/Expandednotesonrunningrf