加载中…
个人资料
一绝
一绝
  • 博客等级:
  • 博客积分:0
  • 博客访问:556
  • 关注人气:14
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

Gene Expression Omnibus (GEO)介绍

(2009-05-21 10:06:28)
标签:

ncbi

分类: 分子生物信息学

Gene Expression Omnibus (GEO)介绍

GEO(Gene Expression Omnibus)数据库包括高通量实验数据的广泛分类,有单通道和双通道以微阵列为基础的对mRNA丰度的测定;基因组DNA和蛋白质分子的实验数据;其中包括来自以非阵列为基础的高通量功能基因组学和蛋白质组学技术的数据也被存档,例如基因表达系列分析(serial analysis of gene expression,SAGE)和蛋白质鉴定技术.迄今为止,GEO数据库包含的数据含概10 000个杂交实验和来自30种不同生物体的SAGE库.本文概述了GEO数据库的查询和浏览,数据下载和格式,数据分析,贮存与更新,并着重分析GEO数据浏览器中控制词汇的使用,阐述了GEO数据库的数据挖掘以及GEO在分子生物学领域中的应用前景.GEO可由此公众网址直接登陆http://www.ncbi.nlm.nih.gov/projects/geo/.

近年来,利用高通量杂交阵列和基于测序技术的分子生物学实验已非常普及,这些技术要么被单一使用、 要么被联合使用来评估大量 mRNA和基因组 DNA分子的信息。促成这种普及的主要因素是这些技术的平行、 高通量特性及其伴随在时间上的高度保守性,即

在极为相似的条件下同时 (或者几乎同时 )进行大量的分子样品实验所获得的信息资源。

当研究发现在科学文献 (或者类似的期刊 )上发表后,通过公共的高通量数据库,可以满足对相关数据的进一步挖掘。建立高通量数据的公共数据库平台非常必要。基因表达综合数据库 ( GEO; heep: / /www. ncbi .nlm. nih . gov/geo)是一个巨大的基因表达数据库,并逐步开始被科学界所使用。2005年,在一份由美国 NCB I等四家科研机构联合发布的新闻稿中对 GEO数据做了如下统计:截止到 2005年, GEO已拥有代表 100多种生物体的近 10亿个单独的基因表达数据测量信息,每周都会有 1000多个不同的用户来访问 GEO记录,整体GEO网站的访问次数每周已超过 15000次之多。GEO的目标是尽量最大范围地涵盖可能的高通量实验方

法,同时保持数据库的灵活多变以适应未来发展的趋势,其最大功能是用来储存和检索公开的高通量基因表达和基因组杂交数据。1  数据库的组织和构成简单地说, GEO把递呈的数据分成三个等级的实体类型[ 1, 2 ]即平台 ( p latform)、 样本 ( samp le)和系列( series) ,它们每个均可保存到独立相关的数据库,因为它们分别被赋予了一个唯一的、 永恒不变的标志符。

数据仓库图解

一个GEO仓库概念图解的顶层视图显示四个基本实体:提交者,平台,系列和样本。

 

提交者:提交者的联系和登录信息同许多平台,许多样本和许多系列有关系。平台:关于用于以高通量方式检查样本的物理试剂的信息。同一个提交者,许多样本有关。样本:关于被检查的mRNA样本,实验条件,和实验产生的基因表达测量数据信息。同一个提交者,一个平台和许多系列有关。系列:样本收集,样本是如何相关的,如何排序的,分析是如何进行的,和聚类数据是如何获得的信息。同一个提交者,许多样本有关。

为了能达到一个开放灵活的设计理念,以方便用户储存和检索不同类型的数据, GEO中的数据并不完全压缩集中在同一数据库中。相反,而是用一种图表分隔的 ASCII表格形式,来对每一个平台和样本的数据进行保存。这种表格包含有多项专栏,并在表格的上面伴有专栏名称。当前摘录表格中的数据主要是为了索引,但是,为了方便用户更广泛地搜索和检索,这些数据还可被进一步、 更深一层次地摘录和提炼。另外,数据投放者自己也添加了一些专栏,以用于贮存附加的、 被他们定义的相关信息。从本质上说,平台是描述一联串在特定实验中被检测或被定量分析的因素。比如寡核苷酸探针组,cDNAs, SAGE标签,抗体等。平台登录号的首字母为“GPL” 。

 样本是指以一个平台为基础、 描述某个杂交实验或者实验条件的所有特征因素的大量测量信息。每个样品有一个,而且只有一个必须先前被确定的亲代平台。样本登录号的首字母为“GS M” 。系列是把构成某个实验的相关样本集中到一个有生物意义的数据集,同时可能还收集一些已被递呈者注明的重要基因或者分析结果纲要。一个系列中的样品是通过某一共同的属性联结在一起的。系列登录号的首字母为“GSE” 。GEO平台和样本的数据格式不像元数据格式那样,是被保存在一个指定的数据库格式字段区域内,也不是完全的高度集中,而是以文本的形式保存。这种设计理念能使 GEO保持适应不断发展的技术趋势,同时也允许在被保存数据的数量和类型方面达到最佳。最近还对 GEO数据库做了一些补充和提高,新增加了增补的元数据字段,目的是为了便于和鼓励 M I AME关于芯片实验的最低限度信息 )兼容数据的递呈[ 3 ],以及接受芯片原始数据文稿的保存和检索,比如Affymetrix的 cel文件或 cDNA阵列扫描图像等。2  数据递呈和标准GEO旨在在用户友好的分析程序和不过度死板之间达到一种平衡,同时还鼓励递呈高质量的数据和高层次的实验评注。GEO提供了一个基本的结构,以方便数据投放者能以 M I AME兼容的形式[ 4 ]递呈他们的数据。递呈到 GEO的数据会遵照一些被限定的条件并服从一些基本的规则,而在数据的构成形式上得到确认,以确保所得到的记录包含一定意义的信息,并且能被正确地归纳和组织。数据的递呈者保持对数据的管理和编辑,同时也要对他们记录的内容和质量负责,这些记录的概要将会在微阵列基因表达数据协会委员会( Micr oarray Gene Exp ression Data Society 简 称MGED)

[ 4 ]以公开信件的形式发布。很明显, GEO不进行单独实验或分析,递呈数据的可靠性,价值,质量或生物学意义依赖于数据投放者。一旦数据投放者建立了他们自己私人的 GEO账号,他们将有三条途径来储存他们的数据。(1)交互式网络格式。对每个平台和样本的投稿,

均会有一个文本图表分隔的数据表格文件被上传和验证。元数据字段区域通过一系列的网络格式被交互式的进入。这个程序对投递相对少的数据时非常直接和实用。也可以用相同的交互式网络格式对单个数据记录进行更新。( 2 ) 直接用单一的综合性文本格式 ( Simp le

Omnibus Format)即 SOFT的格式投递。SOFT是专门为快速批量投递数据而设计,这样的文件很容易从普通的表格程序和数据库应用软件生成。单一的 SOFT文件可同时包括多平台,样本和系列的数据和元数据,且能被直接上传到数据库。用 SOFT格式也可以快速有效地批量上传数据。关于 SOFT格式的详细信息可在GEO网站获得。(3)数据投放者还可以用有效的微阵列基因表达标 志 语 言[ 5 ]( Microarray Gene Exp ression MarkupLanguage简称 MAGEO ML )格式,以 FTP的形式把文件上传到 GEO。3  数据检索和分析311 数据集组与表达谱(Da ta sets and Prof iles) 在数据库早期构建期间,单独通过登录号来检索数据或者通过目录分类来浏览数据信息,都难以充分地记录基因表达数据或其它序列信息,进而不易针对已出版物资源之间进行有效的数据挖掘和进行本质联系。高通量的分子丰度数据本来就比其它数据类型(如序列或数据目录等 )更复杂,同时还要考虑到被检测个体与生物学 O 统计学背景之间的密切联系。GEO存储的是一些分类广泛的、 经过多种手段处理和不同方法分析的高通量实验数据。为了说明这些内容,GEO还增添了一个辅助分析工具,该工具可以把被提交的样本归纳集中到有生物学意义和在统计学上可比较的 GEO数据集组 ( GEO DataSets简称 GDS)。GDS记录是提供关于一个实验的相关梗概,以此作为下游

数据挖掘和数据显示工具的基础。根据数据集组与数据 (表达 )谱的不同,定义了以

下两个数据库:

  (1) GEO数据集组 (Datasets)储存了所有的元数据,提供了 GEO数据以“ 实验为中心” 的主要观点。检索界面可从 GEO主页进入或直接登录 http: / /www.ncbi . nlm. nih . gov/ entrez/query . fcgi? CMD =search&DB = gds。

  (2) GEO表达谱 ( Profiles)储存了单个基因表达的数据资料,提供了 GEO数据以“ 基因为中心 ” 的主要看法。检索界面可从 GEO主页进入或直接登录 htt p: / /www. ncbi . nlm. nih . gov/ entrez/query . fcgi? CMD =search&DB = geo。

因而,在 GEO Datasets中每个数据集组个体都各自确定一个实验,而在 GEO Pr ofiles中每个数据集组都对应多个表达谱个体 (图 2)。

312 基本检索

  有以下几条途径和格式来检索 GEO数据:

  (1)单个平台、 样本、 系列和 GDS记录可通过它们的 GEO登录号,直接访问该网页。相关记录在 GEO站点有内部链接,以方便用户浏览相关的平台、 样本、 系

列和 GDS记录。

  (2)可以登录以下网址 http: / /www. ncbi . nlm. nih .gov/geo /gds /gds_br owse . cgi,通过名称,类型,平台或生物体来浏览 GDS记录。被用户递呈的记录也可通过目录或被递呈者本人来浏览。

    作为一个公开的数据库, GEO的数据已被有代表性地分析和研究。而且,在大多数情况下,这些数据的分析结果均已在杂志上发表。但是,当考虑个人的实验时,把互不相关的数据汇集在一个数据库,并组织它们用共同的界面进行分析和交互比较时,并不容易达到一个有价值的分析结果。通过检测空间和暂时的基因表达模式[ 10, 11 ],以及用具有特征性标记基因作为校准来挖掘 GEO数据,可以对一些未知基因的功能和遗传网络提供线索。分别交互比较类似的数据集组,可以确认在单独一个实验中可能被忽略的、 用户感兴趣的基因表达趋势[ 12 ]。GEO数据库及其工具,也可以验证实验室的研究发现,或提供支持性意见,或设计研究

计划及其获得假说的否定证据等[ 13 ]。GEO数据的再分析和重新解释还可以为其它领域提供一些有价值的线索[ 14, 15 ]。随着 GEO数据库在大小和多样性方面的不断增长,这样的研究发现机遇也将不断提高。

  然而,在目前高通量基因表达的实验研究快速发展,实验的复杂性所带来的大量原始数据,必然造成数据间比较的困难;因为表达丰度测量信息,只能在来源相似的数据集组中进行比较,而且,这些数据不能立即得到阐明或者它们的原始数据很难被一般用户看懂。因此,为了阐明这些内容, GEO进一步发展和提供了数据库的应用,并已开始把可比性强的数据,归入 GEO亚库中,同时还提供一些工具软件,来帮助鉴别和归纳基因以及样本的关系。在把 GEO数据库中数据整合进入其它 NCB I资源之前,选择可比性样品建立数据亚库是必要的。未来 GEO计划开发这些可比数据的亚库,以允许用户更自由地查询丰度测量信息,同时利用相关数据,获得一系列有意义的发现。

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有