植物比较基因组学和数据库
(2014-08-05 08:12:31)
标签:
植物比较基因组学和数 |
分类: biology |
8. 植物比较基因组学和数据库
最近,农作物和家畜核苷酸序列的积累,使我们能够在全基因组范围内比较分析模式生物的基因和发现新的涉及表型 的相关基因。从不同物种得来的基因组的整合信息,如大规模收集的cDNA和全基因组测序计划的数据将有利于我们共享关于模式生物和应用生物基因功能的信 息,也将加速重要农艺性状相关的分子水平的研究。在网络上可以访问的一些植物基因组学的信息资源已经出现,另外还有一些适当的分析工具。表4是植物基因组 一些个综合数据库的网址。
表4 植物综合数据库
数据库 | 植物 | 网址 |
TAIR | 拟南芥 | http://www.arabidopsis.org/ |
SIGnAL | 拟南芥 | http://signal.salk.edu/ |
RARGE | 拟南芥 | http://rarge.psc.riken.jp/ |
Rice Genome Annotation Project | 水稻 | http://rice.plantbiology.msu.edu/ |
RAP-DB | 水稻 | http://rapdb.dna.affrc.go.jp/ |
SOL genomics network | 茄科 | http://solgenomics.net/ |
Gramene | 禾本科 | http://www.gramene.org/ |
GrainGenes | 麦类作物 | http://wheat.pw.usda.gov/GG2/index.shtml |
SoyBase | 大豆 | http://www.soybase.org/ |
MazieGDB | 玉米 | http://www.maizegdb.org/ |
CyanoBase | 蓝细菌 | http://genome.kazusa.or.jp/cyanobase/ |
GDR (Genome Database for Rosaceae) | 蔷薇科 | http://www.bioinfo.wsu.edu/gdr/ |
Brassica Genome Gateway | 芸苔 | http://brassica.bbsrc.ac.uk/ |
Cucurbit Genomics Database | 葫芦科 | http://www.icugi.org/ |
Phytozome | 植物 (全基因组信息) | http://www.phytozome.net/ |
PlantGDB | 植物(全基因组或/大规模 EST信息) | http://www.plantgdb.org/ |
EnsemblPlants | 植物(全基因组信息) | http://plants.ensembl.org/index.html |
ChloroplastDB | 植物(叶绿体基因组) | http://chloroplast.cbio.psu.edu/ |
KEGG PLANT | 植物(全基因组或/大规模 EST信息) | http://www.genome.jp/kegg/plant/ |
8.1 植物门户网站信息资源
TAIR是位于美国的拟南芥信息资源网站(The
Arabidopsis Information Resource, TAIR)(http://www.arabidopsis.org/),
也是国际上最为权威的拟南芥基因组数据库和拟南芥基因组注释系统。它具有丰富的数据资源和最新的注释信息。拟南芥转录因子数据库DATF的每个条目都有
TAIR链接,可以直接查看最新更新信息。Salk研究所基因组分析实验室(The Salk Institute Genomic
Analysis Laboratory,SIGnAL) 也主要是一个涉及拟南芥的信息资源(http://signal.salk.edu/),它整合了各种组学数据。RIKEN植物科学研究中心的基因组的百科全书(The
RIKEN Arabidopsis Genome Encyclopedia,RARGE)
能够提供关于拟南芥的各种组学信息(http://rarge.gsc.riken.jp/db_home.pl)。
上述这样的门户网站都提供了获取组学综合数据的生物资源,还设有注解基因的数据,如基因的全长cDNA克隆、基因突变、基因表达模式和基因组中的同源基因
Gramene
是谷类比较图谱的资源网站。它是一个协助性的、以网络为基础的公开性数据资源,致力于稻科植物的比较基因组分析。Gramene的目标是使用公用工程信息
促进交叉物种的同源关系研究。这些公用工程信息包括基因组、EST序列、蛋白质结构和功能分析、遗传学和物理图谱、生物化学通路的阐述、表型特征和突变的
QTL定位及描述。作为一个信息源,Gramene可以在公共资源中提供更多有价值的资料,便于研究者利用。
随着基因组测序计划的实施,分享组学进展成果和整合相关资源的门户网站也相继推出。其中包括番茄基因组测序计划的基因组信息资源门户网站(http://solgenomics.net/)。
SoyBase是大豆基因组研究资源的门户网站,它公布全基因组序列数据(http://soybase.org/)。MaizeGDB是关于玉米生物信息社会的数据库,包括遗传和基因组数据集和相关信息(http://www.maizegdb.org/)。Sol
基因组网络是茄科植物基因组的门户网站,包含有番茄基因组计划的信息资源(http://solgenomics.net/)。此外还有大豆数据库SoyBase(http://www.ncbi.nlm.nih.gov/),它是一个全面的大豆遗传学和基因组学的信息资源库。玉米基因组的网站在(http://www.maizegdb.org/),该数据库包括玉米所有遗传学、基因产物、功能分析以及相关文献查阅等的信息。
8.2
植物种间基因组尺度比较
随着一些植物物种基因组测序的完成,基因组规模的比较分析开始能够被用来开发数据和发布数据集,以识别植物物种之间保守或特殊的性质。
人们已经利用从模式生物基因组测序推导出的蛋白质组数据集,完成了若干项尝试,目的是建立平台,以验证基因和阐明基因重复和种间基因功能的多样化。 全面基因家族的数据集通常利用计算机程序来完成,包括进先行一次所有的序列相似性搜索,然后是聚类蛋白质家族,方法如马尔可夫聚类(Markov Clustering,MCL)或蛋白质结构域分析等。
物种间基因的排列以及相关的染色体定位也被称为同线性或共线性,这已经成为从共同祖先基因推导到一个相关的物种的重要方法。植物基因组复制数据库
(The plant genome duplication
database,PGDD)能够提供植物全基因组序列和基因组同线性关系(http://chibba
.agtec.uga.edu/duplication/)。
8.3
植物基因组学重点数据库
序列特异性DNA结合结构域是关键的分子开关,它能够控制或影响许多生物过程,例如发育或对环境的变化反应等。在植物中,拟南芥全基因
组范围内,鉴定编码转录因子基因的实验最早实施和公布,这些信息与其它生物比较,揭示了一些植物特有转录因子的特点。在过去的十年中,通过完整的基因组序
列信息的利用,人们已经能够在一些生物中汇编描述转录因子调节系统和功能的组织结构网络。有很多数据库可以提供植物编码转录因子基因的信息,这些信息通常
是基于计算机方法的预测,如序列的相似性搜索或/和隐含马尔可夫搜索保守的DNA结合结构域(表5)。
表5 植物转录因子数据库
Database | URL | Species |
RARTF | http://rarge.gsc.riken.jp/rartf/ | 拟南芥 |
AGRIS, AtTFDB | http://arabidopsis.med.ohio-state.edu/AtTFDB/ | 拟南芥 |
DATF | http://datf.cbi.pku.edu.cn/ | 拟南芥 |
DRTF | http://drtf.cbi.pku.edu.cn/ | 水稻 |
DPTF | http://dptf.cbi.pku.edu.cn/ | 白杨 |
TOBFAC | http://compsysbio.achs.virginia.edu/tobfac/ | 烟草 |
SoybeanTFDB | http://soybeantfdb.psc.riken.jp/ | 大豆 |
PlantTFDB | http://planttfdb.cbi.pku.edu.cn/ | 22种植物 |
PlnTFDB | http://plntfdb.bio.uni-potsdam.de/v3.0/ | 20种植物 |
GRASSIUS, GrassTFDB | http://grassius.org/grasstfdb.html | 玉米、水稻、高粱、甘蔗 |
LegumeTFDB | http://legumetfdb.psc.riken.jp/ | 大豆、百脉根、蒺藜苜蓿 |
DBD | http://dbd.mrc-lmb.cam.ac.uk/DBD/index.cgi?Home | 多于700物种 |
最近,深入的转录因子编码基因数据库整合已经完成,从而建立了一个综合性的、基于转录因子信息的比较基因组学转录因子数据库。 GRASSIUS迈出了建立一个全面信息平台的第一步,这个平台能够整合信息、工具和植物比较基因组学的调控资源。GRASSIUS 的禾草类转录因子数据集(The Grass Transcription Factor Database,GrassTFDB)整合了玉米转录因子数据库(MaizeTFDB)、水稻转录因子数据库(RiceTFDB)、高粱转录因子数据库 (SorghumTFDB)和甘蔗转录因子数据库(CaneTFDB)(http://grassius.org/grasstfdb.html)。GRASSIUS的豆科植物转录因子数据集(GrassTFDB)提供了豆科植物预测的转录因子编码基因,这些基因来自豆科3个主要品种(大豆、益母草和截型苜蓿)的基因组注解(http://legumetfdb.psc.riken.jp/)。这个数据库是SoybeanTFDB(http://soybeantfdb.psc.riken.jp/)的扩展版本,目的是整合豆科植物转录因子的知识,并提供豆科植物的公共资源,并用于豆科植物、非豆科植物或其他植物转录因子的比较基因组学。