加载中…
个人资料
生物信息学
生物信息学
  • 博客等级:
  • 博客积分:0
  • 博客访问:11,559
  • 关注人气:36
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
相关博文
推荐博文
谁看过这篇博文
加载中…
正文 字体大小:

蛋白质功能预测的计算机方法:概述

(2009-07-25 19:40:04)
标签:

杂谈

Computational Approaches for Protein Function Prediction: A
Survey
Gaurav Pandey, Vipin Kumar and Michael Steinbach Department of Computer Science and
Engineering, University of Minnesota

camelbbs@gmail.com
蛋白质是生命中最必需和最通用的大分子,对它们的功能的认识与新药的发展、农作物的
收成以及生化合成如生物燃料的发展有着重要的联系。实验手段来预测蛋白质功能本身就是低
通量的,已经不能用来注释在高速发展的基因组测序技术中所获得的大量蛋白质。这促使人们
通过计算机技术,利用各种高通量的实验数据来进行蛋白质预测,如蛋白质和基因组序列、基
因表达数据、蛋白质相互作用网络以及系统发生谱等等。事实上,在过去的短短的十年里,关
于这个课题已经发表了几百篇文章。本概述的目的在于,根据这些预测方法所用到的数据类型
将它们分类并加以讨论,以便对这一重要领域的发展趋势作出预测。希望本文能帮助计算生物
学家和生物信息学工作者获得一个关于蛋白质功能的计算机预测这一领域的总览,并找出那些
值得进一步研究的地方。
关键词和短语:蛋白质功能预测 生物信息学 基因分类 多重生物数据类型 高通量实验数据 数
据挖掘 基于非同源性方法
1 前言............................................................................................................................................ 3
2 什么是蛋白功能......................................................................................................................... 5
2.1 功能分类计划(Schemes).................................................................................................. 7
2.2 GO 是途径........................................................................................................................ 9
2.3 讨论................................................................................................................................ 11
3 蛋白质序列............................................................................................................................... 12
3.1 介绍................................................................................................................................ 12
3.2 基于同源性的注释转换:用于功能预测的优点......................................................... 14
3.3 简单同源注释转换之外的方法..................................................................................... 15
3.3.1 基于同源性的方法(homology-based)......................................................................... 16
3.2.2 基于亚序列的方法(subsequence-based)..................................................................... 17
3.3.3 基于特征的方法(feature-based).................................................................................. 21
3.4 讨论................................................................................................................................ 24
4。 蛋白质结构........................................................................................................................... 24
4。1 简介............................................................................................................................. 24
- 2 -
4.2 结构与功能有联系吗?................................................................................................ 27
4。3 已存在的方法............................................................................................................. 29
4.3.1 基于结构相似性的方法(structural similarity-based)................................................. 29
4.3.2 基于三维基序的方法(three-dimensional motif-based) .............................................. 31
4.3.3 基于表面的方法(surface-based) ................................................................................. 33
4.3.4 基于学习的方法(learning-based)............................................................................... 34
4.4 讨论................................................................................................................................ 35
5 基因组序列............................................................................................................................... 35
5.1 简介............................................................................................................................... 35
5.2 现有方法........................................................................................................................ 36
5.2.1 基于基因组范围的同源性的注释转换(genome-wide homology-based) .................. 36
5.2.2 利用基因邻居的方法(neighborhood) ......................................................................... 37
5.2.3 利用基因融合的方法(fusion) .................................................................................... 39
5.3 方法的比较和互补(comparison and assimilation)........................................................ 40
6 系统发生数据(phylogenetic data)............................................................................................ 42
6.1 简介............................................................................................................................... 42
6.2 已有方法......................................................................................................................... 43
6.2.1 使用系统发生谱的方法(phylogenetic profiles) ........................................................ 44
6.2.2 系统发生树方法(phylogenetic trees) ......................................................................... 46
6.2.3 杂合方法(hybrid)........................................................................................................ 49
6.3 讨论................................................................................................................................ 50
7 基因表达数据........................................................................................................................... 50
7.1 简介............................................................................................................................... 50
7.2 已有方法........................................................................................................................ 52
7.2.1 基于聚类的方法(clustering-based) ............................................................................ 53
7.2.2 基于分类的方法(classification-based)........................................................................ 57
7.2.3 基于动态性的分析方法(temporal analysis-based)..................................................... 59
7.3 讨论................................................................................................................................ 60
8 蛋白相互作用网络................................................................................................................... 62
8.1 简介............................................................................................................................... 62
8.2 蛋白相互作用网络的功用............................................................................................ 63
8.3 已有方法......................................................................................................................... 64
8.3.1 基于邻接的方法(neighborhood-based)....................................................................... 65
8.3.2 基于全局最优化的方法(global optimization) ............................................................ 68
8.3.3 基于聚类的方法(clustering-based) ............................................................................. 70
8.3.4 基于相关分析的方法(association analysis-based) ..................................................... 72
8.4 讨论................................................................................................................................ 73
9 文献和文本............................................................................................................................... 74
9.1 简介................................................................................................................................ 74
9.2 已有方法......................................................................................................................... 74
9.2.1 基于IR 的方法........................................................................................................... 76
- 3 -
9.2.2 基于文本挖掘的方法.................................................................................................. 77
9.2.3 基于NLP 的方法........................................................................................................ 79
9.2.4 关键字搜索.................................................................................................................. 80
9.3.3 标准化举措(standardization initiatives) ...................................................................... 82
9.3.1 BioCreAtIvE ................................................................................................................ 82
9.3.2 TREC 2003 Genomics Track ....................................................................................... 84
9.4 讨论................................................................................................................................ 85
10 多样数据类型......................................................................................................................... 85
10.1 简介............................................................................................................................... 85
10.2 已有方法....................................................................................................................... 86
10.2.1 使用一个普通数据格式的方法................................................................................ 86
10.2.2 使用独立的数据格式的方法................................................................................... 89
10.3 讨论............................................................................................................................... 95
11 结论........................................................................................................................................ 96

下载链接:http://www.91files.com/?OR4WH1N8FD5TULDWNO40

生物信息学论坛
 

 

本文来源于:生物信息学论坛(   http://bioon.5d6d.com/),详细出处参考:http://bioon.5d6d.com/thread-930-1-1.html

0

阅读 评论 收藏 转载 喜欢 打印举报/Report
  • 评论加载中,请稍候...
发评论

    发评论

    以上网友发言只代表其个人观点,不代表新浪网的观点或立场。

      

    新浪BLOG意见反馈留言板 电话:4000520066 提示音后按1键(按当地市话标准计费) 欢迎批评指正

    新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

    新浪公司 版权所有