加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

KEGG数据库简介

(2017-05-30 23:57:01)
标签:

生物信息学

KEGG是一个综合数据库,它们大致分为系统信息、基因组信息和化学信息三大类。进一步可细分为16个主要的数据库。可以通过不同的颜色编码来区分。
数据库中包含各种各样的数据对象,这些数据对象是为了用来对生物系统进行计算机模拟的。因此,各个数据库中的数据记录都被称为KEGG对象。这些对象可以通过KEGG对象标识符来识别,标识符由一个与数据库相关的前缀加五个数字构成。
Database Object Prefix Example
KEGG PATHWAY Pathway map map, ko, ec, rn, (org) hsa04930
KEGG BRITE Functional hierarchy br, jp, ko, (org) ko01003
KEGG MODULE KEGG module M, (org)_M M00010
KEGG DISEASE Human disease H H00004
KEGG DRUG Drug D D01441
KEGG ENVIRON Crude drug, etc. E E00048
KEGG ORTHOLOGY KO group K K04527
KEGG GENOME KEGG organism T T01001 (hsa)
KEGG GENES Gene / protein hsa:3643
KEGG COMPOUND Small molecule C C00031
KEGG GLYCAN Glycan G G00109
KEGG REACTION Reaction R R00259
KEGG RPAIR Reactant pair RP RP04458
KEGG RCLASS Reaction class RC RC00046
KEGG ENZYME Enzyme ec:2.7.10.1
((org) represents three-, four-, or five-letter organism code)
KEGG PATHWAY数据库是一个手工画的代谢通路的集合,包含以下几方面的分子间相互作用和反应网络:

1.新陈代谢
2.遗传信息加工
3.环境信息加工
4.细胞过程
5.生物体系统
6.人类疾病
7.药物开发
PATHWAY的五种类型
仅仅第一种参考通路(reference pathway)图是手动画出来的,其他的通路图都是通过计算产生的。 pathway中的每一个框(或线)都对应一个或多个K编号、EC编号及R编号。
map - Reference pathway
    对于代谢相关的通路,在reference pathway中,一个点同时表示一个基因、这个基因编码的酶及这个酶参加的反应
ko - Reference pathway (KO)
    ko通路中的点只表示基因
ec - Reference pathway (EC)
    ec通路中的点只表示相关的酶
rn - Reference pathway (Reaction)
    Reaction通路中的点只表示改点参与的某个反应、反应物对及反应类型
org - Organism-specific pathway map
    对于所有的代谢和非代谢通路,K编号都被认为是基因的标识符,这个标识符在每一个物种中对应该物种中的某个基因,从而得到物种特异性的pathway。
KEGG BRITE是一个层级分类的数据库,包含生物系统各个方面的知识。相对于KEGG PATHWAY仅限于分子间相互作用和反应,KEGG BRITE包含了许多不同的关系类型。例如,可以查询酶和底物之间的关系,也可以查询某种酶的同源基因。
KEGG MODULE是一个人工定义的功能单元的集合。被用于已测序基因组的注释和生物学上的解释。各个模块使用M开头的编号及与其对应的一系列K开头的编号来表示。
四种主要的KEGG模块:
1.通路模块:代表在KEGG代谢通路图中的复杂功能单元,例如M00002(糖酵解,与三碳化合物相关的核心模块)
2.结构复合物:通常形成分子机械,例如M00072(寡糖转移酶)
3.功能集:基本单元的其他形式,例如M00360(氨酰基-tRNA 合酶,原核生物)
4.特征模块:作为某种表型的标记,例如M00363(肠出血性大肠杆菌致病性特征,志贺毒素)
KEGG ORTHOLOGY (KO) Database:
KEGG参考通路图,BRITE功能层次以及KEGG模块都是以一种广泛的方式来表示,都可以用于所有物种。而KEGG直系同源系统(KO System)是这一表示方式的基础。包含手动定义的直系同源组,这些直系同源组就相当于KEGG通路中的点,BRITE层级中的点以及KEGG模块中的点。(这些点并不是某个具体物种的某一个基因,而是在许多物种中都存在的直系同源的某一个基因)。一旦基因被分配了KO标识或K编号,通过基因组注释流程,物种特异性的通路图、BRITE功能层次和KEGG模块就可以自动产生了。
直系同源(orthology)是比较基因组学中最重要的定义。直系同源的定义是:
    (1).在进化上起源于一个始祖基因并垂直传递的同源基因;
    (2).分布于两种或两种以上物种的基因组;
    (3).功能高度保守乃至于近乎相同,甚至于其在近缘物种可以相互替换;
    (4).结构相似;
    (5).组织特异性与亚细胞分布相似。 
旁系同源(paralogy)基因是指同一基因组(或同系物种的基因组)中,由于始祖基因的加倍而横向产生的几个同源基因。直系与旁系的共性是同源,都源于各自的始祖基因。其区别在于:在进化起源上,直系同源是强调在不同基因组中的垂直传递,旁系同源则是在同一基因组中的横向加倍;在功能上,直系同源要求功能高度相似,而旁系同源在定义上对功能上没有严格要求,可能相似,但也可能并不相似(尽管结构上具一定程度的相似),甚至于没有功能(如基因家族中的假基因)。

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有