加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

[转载]每日一生信--RAST自动注释微生物基因组(终结版)

(2014-04-16 17:28:14)
标签:

转载

官网网址:http://rast.nmpdr.org/

RAST(利用Subsystem技术快速注释工具,Rapid Annotation using Subsystem Technology),一个针对完整的或将近完整(draft genome or complete genome)的细菌古菌基因组注释工具。它可以用来预测orf,Rrna,Trna,以及相应的功能基因,并可以利用这些信息构建代谢网络。

RAST的准确性,一致性和完整性是基于两个数据库:人工矫正的Subsystems库和关于蛋白的库(FIGfams)。它的注释出来的数据主要分为两块:基于Subsystems库注释(相当于跟库里面的功能基因比对,而它的数据里面现在包含58 Archaea, 963 Bacteria, 562 Eukaryota, 1254 Plasmids and 1713 Viruse),不基于Subsystem库的注释(借助其他的工具来分析???难道是序列的一致性?),当然在利用注释信息构建代谢网络的时候为了更准确些,我们往往会更多的用基于Subsystems库注释(subsystem-based assertions)。

 

通过邮箱申请一个帐号即可上传你的contigsfasta数据,注释完了后会发邮件给你,你的注释结果将或保留120天,你也可以申请将注释的结果加入到SEED中去。


自动注释出来的结果包含的信息量是比较大的:

1,根据比对的信息,你可以看到数据库中离他最近的物种是啥(View closest neighbors),以及你上传序列的基本信息(大小,contigs数,匹配的subsystems数,orf,rna数目)

2,功能注释后所列出的一张饼图,各个相应的功能所占的比例

3,除了能注释出功能基因,然后做一个简单的代谢网络以外,还可以通过SEED模块将上传的基因组跟其他的基因组比较(这个功能牛逼).比较的对象可以是你上传的比较,也可以是是和他数据库相应的基因组比较,而这个基因组的比较可以包括function based, sequence based或者KEGG. 甚至你可以用其他的序列来跟它比对。

4,注释的内容可以下载,下载的格式可以为GenBank,FASTA,gff3,excel,也可以重新修改参数再上传自动注释。

 

RAST分析的大致步骤:

1,寻找tRNArRNA

tRNA通过tRNAscan-SE来寻找,rRNA则可以search_for_rnas来寻找。因为现在有的蛋白数据库会预测出来的Orf有的跟rRNA序列非常相似,所以我们在第一步就先找出RNA序列,然后再对剩下的序列进行预测Orf

2,预测Orf

GLIMMER2来预测Orfprotein-encoding genes

3,寻找相近的基因组是(establishing phylogenetic context

利用FIGfams数据库的几个具有代表性的通用蛋白建立一个索引,快速去比对上传的基因组,根据比对上具有代表性的信息来估计离上传的基因组最近的物种,

4,用相近的基因组来比对

一旦找到了相近的基因组,就可以根据这些相近的基因组来建立FIGfams的一个小库,而这个小库里面的FIGfams蛋白将在上传的基因组中去寻找,一旦在上传的基因组中找到相应的某个基因,则把这个基于提出来放在已知的一组中,剩下的继续寻找,直到这个小库中的蛋白在上传的基因组中找不到相应的基于为止。

5recall protein-encoding genes

用上面一步通过上传基因组建立的已知基因来recall相应的基因组(???这一步没搞明白它到底想干什么?)

6,剩下的Orf来跟整个FIGfams数据库比对

跟相近的基因组比对后,上传的基因组还是有一部分Orf匹配不上,是未知的,所以需要拿这些剩下的未知的来跟整个FIGfams数据库比对。(之前的这些步骤算是缩小范围来节省时间了。)

7,最后的Orf nr比对

最后无法比对上FIGfams数据的预测基因(这些基于可能因为overlapping gene calls ,starting position的缘故),所以将这些基因跟nr数据库比对,相似性高的就注释出来。

8,建立代谢网络

功能注释一旦结束,一个初略的代谢网络就被建立了,也就是将上传基因组中的基因跟subsystems中功能角色对应起来。

 

 

 

上传数据:

上传的数据仅仅接受FASTA或者GenBank格式

taxonomy ID:(如果不知道可以不填,也可以根据物种名在这个网址上得到IDhttp://www.ncbi.nlm.nih.gov/Taxonomy/taxonomyhome.html/

输入正确的ID后,下面会自动出来种属,如果不知道ID,也找不到ID,则下面的种属需要人为的来填写,来生成一个虚拟的ID号。

Genetic code:大多数的细菌都用11(具体说明

http://www.ncbi.nlm.nih.gov/Taxonomy/Utils/wprintgc.cgi),但是支原体,螺原体,ureoplasmaea,真菌线粒体。

Select gene caller:基因预测,有RASTGLIMMER-3两种方式。如果选择GLIMMER-3的话,将不会自动修复错误,阅读框转移修正,补填gaps.

Select FIGfam version for this runz:默认的是59,最新的是70,如果最新的是最好的,为什么还有这个选择的选项呢。

Automatically fix errors

Fix frameshifts

Build metabolic model

Backfill gaps

Turn on debug ?    

set verbose level      设置处理数据中的报告级,分为详细的报告还是只是报告错误之类的。

Disable replication   是否允许去除duplication.很多时候是不需要删掉的。比如在RNA的时候,实际上,任何需要计                            算丰度的时候都不能删掉。当然dup的比例太大的时候,那就另当别论了


最后上传,8-12小时结束注释后会给你发邮件。

 

 

FIGfams

RAST是基于SubsystemFIGfams两个数据库来工作的。构建的FIGfams是相对来说比较保守的,两个蛋白放在一个分类上需要确保他们的功能相似,如果功能不一样,就会放在不同的分类上,而两个蛋白放在一个分类上可以基于两种情况:1如果他们俩同时在Subsystem数据库的分类中出现,且两者相似度达到70%以上;2,如果他们来自两个非常相似的基因组(相似度达到90%以上),且这两条序列在相应基因组中的位置关系差不过,也可把他们归为一类。FIGfams中有17000个基于Subsystem的核心蛋白,还有80000个则是基于上面的第二种思路得到的。

 

参考资料:

  文献:The RAST Server: Rapid Annotations using Subsystems Technology 

官网教学:http://www.theseed.org/wiki/RAST_Tutorial

          http://www.nmpdr.org/FIG/wiki/pub/Main/RAST/RASTtutorial.pdf

          http://www.nmpdr.org/FIG/wiki/view.cgi/Main/RAST

 

Ps首先感谢QQ好友哈皮对我这篇博文的指点。

     那什么是Subsystem技术?还有那个该死的SEED又是啥捏?慢慢看文献理解吧。

  

0

  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有