为了查找某个研究领域的相关信息,生物学家往往要花费大量的时间,更糟糕的是,不同的生物学数据库可能会使用不同的术语,好比是一些方言一样,这让信息查找更加麻烦,尤其是使得机器查找无章可循。Gene
Ontology就是为了解决这种问题而发起的一个项目。
Gene
Ontology中最基本的概念是term。GO里面的每一个entry都有一个唯一的数字标记,形如GO:nnnnnnn,还有一个term名,比如"cell",
"fibroblast growth factor receptor binding",或者"signal transduction"。每个term都属于一个ontology,总共有三个ontology,它们分别是molecular function, cellular component和biological process。
一个基因product可能会出现在不止一个cellular component里面,也可能会在很多biological
process里面起作用,并且在其中发挥不同的molecular function。比如,基因product "cytochrome c" 用molecular function term描述是"oxidoreductase activity",而用biological process
term描述就是"oxidative
phosphorylation"和"induction of cell death",最后,它的celluar component term是"mitochondrial matrix"和"mitochondrial inner membrane"。
Ontology中的term有两种相互关系,它们分别是is_a关系和part_of关系。is_a关系是一种简单的包含关系,比如A is_a B表示A是B的一个子集。比如nuclear
chromosome is_a chromosome。part_of关系要稍微复杂一点,C part_of_D意味着如果C出现,那么它就肯定是D的一部分,但C不一定总会出现。比如nucleus part_of cell,核肯定是细胞的一部分,但有的细胞没有核。
Ontology的结构是一个有向无环图,有点类似于分类树,不同点在于
Ontology的结构中一个term可以有不止一个parent。比如
biological process term "hexose
biosynthesis" 有两个parents,它们分别是"hexose metabolism"和"monosaccharide
biosynthesis",这是因为生物合成是代谢的一种,而己糖又是单糖的一种。
Gene Ontology
(GO)简介
Gene
Ontology(GO)包含了基因参与的生物过程(biological process),所处的细胞位置(celluar
component),发挥的分子功能(molecular
function)三方面功能信息,并将概念粗细不同的功能概念组织成DAG(有向无环图)的结构。
Gene
Ontology是一个使用有控制的词汇表和严格定义的概念关系,以有向无环图的形式统一表示各物种的基因功能分类体系,从而较全面地概括了基因的功能信息,纠正了传统功能分类体系中常见的维度混淆问题。在基因表达谱分析中,GO常用于提供基因功能分类标签和基因功能研究的背景知识。利用GO的知识体系和结构特点,旨在发掘与基因差异表达现象关联的单个特征基因功能类或多个特征功能类的组合。
GO对基因和蛋白的注释阐明了基因产物和用于定义他们的GO术语之间的关系。基因产物指一个基因编码的RNA或蛋白产物。因为一个基因可能编码多个具有很不相同性质的产物,所以GO推荐的注释是针对基因产物的而不是基因的。一个基因是和所有适用于它的术语联系在一起的。
根据GO的知识体系,使用“功能类”(或者叫做“功能模块”)这一概念具有以下优点:我们认为,单个基因的表达情况的改变不足以反映特定功能/通路的整体变化情况。因为类似人类社会的组织结构,生物体的功能的实现决不仅仅是依靠一两个基因功能的改变来实现的。因此过分着重单个基因表达变化,将会在后期结果处理中严重干扰对于结果的合理分析,导致偏倚性加大,而且是无法避免的。因此利用GO的结构体系,把参与同样功能/通路的基因进行“功能类”层面的抽象和整合,提供比基因更高一层次的抽象结论,对理解疾病的发病机制或药物的作用机理等更有帮助。
但是该方法也存在一定的不足,由于生物体内部的调控网络可能具有“scale-free network”的特点,个别功能重要的基因(主效基因)具有“Hub节点”的重要特性,它的功能改变可能对于整个网络来说是至关重要的,在这点上,这些重要的基因又具有一定的“自私独裁”特点。而“功能类”之观点模糊了这种差别特性,过于强调“共性”,而忽视了“个性”,这也是“功能类”的一个不足之处,这就需要结合相关的生物学知识才能够实现。此外,GO 是对基因功能的注解,但是有其局限性。比如说,GO不能反映此基因的表达情况,即是否在特定细胞中、特定组织中、特定发育阶段或与某种疾病相关。GO虽然不涉及这些方面,但是支持其他的OBO(open biology
ontologies)成员成立其他类型的本体论数据库(如发育本体学、蛋白组本体学、基因芯片本体学等)
可以说, GO是生物学的统一化工具。
GO的目的:类似于语义网络。是为了生物界有一个统一的数据交流语言。因为在生物学界,存在在种种同名异义、异议同名的现象。为此产生了GO项目。
其思想大概过程:对于一个基因产品(蛋白质或RNA),用某些词汇来描述它是干什么的或位于细胞哪里、或者参与了哪个生物过程,而这些词汇就是来自GO的Term。
Term是GO里面的基本描述单元。它结构如下:
Accession:
GO:0005515
Ontology:
molecular function
Synonyms:
related: alpha-2 macroglobulin receptor-associated
protein activity
related: protein degradation tagging
activity
related: protein tagging activity
exact: protein amino acid binding
alt_id: GO:0045308
Definition:
Interacting selectively with any protein or
protein complex (a complex of two or more proteins that may include
other nonprotein molecules). [source: GOC:go_curators]
Comment:
None
Subset:
说白了,GO就是为了对gene和gene product进行统一注释说明而成了的一个标准。这些注释说明来自称为“Ontology”的一套词汇。
来源:http://www.cnblogs.com/emanlee/archive/2011/08/02/2125314.html,转载后我做了一些补充和修改。
加载中,请稍候......