加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

【云工具】功能注释(Anno_function)

(2016-11-17 09:53:13)

1. 功能与应用

通过与数据库进行比对,对FASTA格式文件的序列进行功能注释。可实现转录组组装获得的Unigene、新克隆的新基因及网上下载基因等序列的功能注释。例如,通过与KEGG pathway数据库比对可分析基因产物所参与的代谢通路,通过与GO数据库比对可实现基因产物分子功能、细胞组件及参与的生物学过程的预测等,为后续进一步深入研究提供基础。


 

2. 使用参数说明

http://s8/mw690/006v1xUAzy76tTtlPL1b7&690

infile:输入文件需为FASTA格式的文件,文件中包含需注释的核苷酸序列信息,可包含多条序列信息

数据库Anno_function可进行9大数据库的注释,包括nr、SwissProt、Cog、 Kog、GO、Kegg、 Pfam、  nt、 TrEMBL。其中nr、SwissProt、Cog、 Kog、GO、Kegg、 Pfam这7个数据库目前使用频率比较高,nt和 TrEMBL这两个数据库因收录信息冗余度比较大,目前使用频率比较小。

子数据集:为了提高基因注释效率,提高基因注释结果的准确性,根据物种分类数据库进行了子数据集的划分,以KEGG数据库为例,子数据集包括Archaea(古生菌)、Bacteria(细菌)、Fungi(真菌)、Human(人)、Invertebrates(无脊椎动物)、Mammals(哺乳动物)、Plants(植物)、Rodents(啮齿动物)、Vertebrates(脊椎动物)、Viruses(病毒)、None(无,即不选择SwissProt数据库进行比对)、Total(所有数据库子集),默认选项为Archaea(古生菌)。在基因注释时尽量选择序列来源物种所在的子数据集,如果不清楚序列来源的物种则选择Total,如果不需要进行该数据库的注释则选择None。在数据库选择时用户可根据注释需要选择性的勾选数据库。


3. 结果示例

主要关注Integrated_Function.annotation这个表格和KEEG分析出的流程图。

 

Integrated_Function.annotation 文件的第一列为Gene ID,后面几列是用户所选数据库的注释结果,如下图所示:

 


 

KEGG分析结果:

http://s1/mw690/006v1xUAzy76tTEQyQM90&690


百迈客云(BMKCloud)是一个面向生物大数据分析的开放云平台,为用户提供完整的生物信息分析以及整合利用公共数据的解决方案。百迈客云科技有限公司是中国第一家商用的生物大数据分析的云计算公司,在中国拥有最大的专业用户群和开发者用户群。首次提出超融合的生物云平台,为用户提供包括生物信息分析平台、计算资源、公共数据、信息分析培训、社交平台的整合服务。百迈客云助力基因研究。


 

百迈客云11月文献功能更新,目前新增数十篇免费文献解读,随后每周还将持续上线更多精彩内容,欢迎登录百迈客云官网(www.biocloud.net)体验。


 


 

 

 

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有