第十章 生物数据库的查询与搜索的目的 直系同源、旁系同源、Refseq
(2010-12-19 00:49:26)
标签:
杂谈 |
第十章
有关的概念,譬如查询与搜索、局部相似性、整体相似性、突变数据矩阵、模块替换矩阵、PAM矩阵与Blosum矩阵二者的比较及适用性……
NCBI的资源有哪些及其用途
直系同源、旁系同源、Refseq
数据库搜索的一般步骤
一、数据库查询与搜索的目的
对于新测定的碱基序列或由此翻译得到的氨基酸序列,往往需要通过数据库查询及搜索,了解目前已做的相关工作,以及找出具有一定相似性的同源序列,以推测该未知序列可能属于哪个基因家族,具有哪些生物学功能。甚至有可能找到已知三维结构的同源蛋白质而推测其可能的空间结构。
二、有关概念
1、 数据库查询:对序列、结构以及各种二级数据库中的注释信息进行关键词匹配查找。也称数据库检索,它和互联网上通过搜索引擎查询信息是一个概念。所采用的工具:Entrez、SRS、PubMed等。
2、 数据库搜索:通过特定的序列比对算法,找出与检测序列具有一定程度相似性的序列。在生物信息学中有特定含义,专门针对序列数据。所采用的工具:Blast、FastA等。
3、 检测序列:新测定的、希望通过数据库搜索确定其性质或功能的序列。
4、 目标序列:通过数据库搜索得到的和检测序列具有一定相似性的序列。
5、 相似性和同源性:
1) 同源序列:从某一共同祖先经趋异进化而形成的不同序列。
2) 相似性:序列之间相似(包含相同)的残基所占比例高低。
要么同源,要么不同源!不存在同源多少的概念!是否有同源性,可有相似性大小来判断。
冗余性:指的是两个序列是否为同一序列,一般是由测序的原因造成的。
所谓“具有50%同源性”,或“这些序列高度同源”等说法,都是不确切的,应避免使用。
注意同源性与冗余性的区别:
注意同源性与冗余性的区别:同源性指的是两个序列是否由同一祖先序列进化而来;
冗余性指的是两个序列是否为同一序列,一般是由测序的原因造成的。
是否有同源性,可由相似性大小来判定。当相似性高于50%(核酸序列)/30%(氨基酸序列)时,较易推测可能是同源序列。但是,相似性较低并不意味一定没有同源性,此时要借助基因家族分析(是否同一家族)或实验手段(譬如是否来自同一组织)来证实是否可能具有同源性。
6、 序列相似的朦胧区(twilight zone)
对于两个随机序列,比对结果的相似性程度通常在20%左右。因此小于20%则表示该比对不具有统计学意义,这个区域被称为朦胧区。
7、 局部相似性和整体相似性
序列比对的数学模型大体分为两类:
·整体比对:从全长序列出发,考查序列的整体相似性,适用于不同长度序列间的比较(允许gap)Needleman-Wunsch算法(1970)
·局部比对:只考虑序列部分区域的相似性
两者的比较:
·局部比对的生物学基础是蛋白质功能位点序列,具有相当大的保守性。
·局部比对往往比整体比对具有更高的灵敏度,可以探测远缘序列间的相似性,其结果更具生物学意义。
·事实上,用整体比对方法企图找出只有局部相似性的两个序列之间的关系,显然是徒劳的;而用局部比对得到的结果也不能说明这两个序列的三维结构或折叠方式一定相同。
二、相似性分数矩阵:即序列比对的分值系统(打分方案)
·突变数据矩阵(Mutation Data Matrix, MD)
·模块替换矩阵(BLOcks Substitution Matrix,BLOSUM)
1)PAM突变数据矩阵
·PAM: 可接收点突变:(Point Accepted Mutation)
·1个PAM的进化距离表示100个残基红发生一个(“可接受”)残疾突变的概率。
PAM矩阵基于相似性较高(85%以上)的序列比对构建。进化距离较远的矩阵(如PAM250)是通过对初始矩阵进行适当的数学处理得到,而不是直接通过计算得到的,其准确率受到一定限制。
2) BLOSUM模块替换矩阵
·Henikoff夫妇(1992)以进化距离较远的序列片段为基础构建,用于解决序列的远距离相关
·Blosum后的数值代表矩阵构建过程中来源序列的最小相似性分析,通过设置不同的值,产生不同的矩阵。值越大,序列间的亲缘关系越近。譬如大或等于80%相似性的序列产生Blosum80矩阵;62%或以上相似行的序列产生Blosum62矩阵。
·适用于探测远缘序列间的相似性。
PAM矩阵与Blosum矩阵二者的比较
矩阵类型
数据来源
默认矩阵
适用范围
按理说,使用与比对序列的实际进化距离最接近的打分矩阵最为有效,但在实际使用中却无法实现,因为这意味着需要事先知道两个序列之间的进化距离,而导致先入为主的错误。因此,在实际进化序列比对时,应该选择各种不同的相似性分数矩阵进行多次比对,并对比对结果进行分析比较,才能得到比较合理的结果。
必须说明的一点:尽管这些细微差别在这个例子中对整个序列比对结果影响不大,因为这两个序列高度相似,但在序列比对的朦胧区可能产生显著影响,此时增强微弱信号以探测远距离相关变得十分重要。
三、NCBI介绍
1)基本研究:包括基因组织,序列分析,和结构预测。譬如:检测和分析基因组织,重复序列形式,蛋白domain和结构单元,建立人类基因组的基因图谱,HIV感染的动力学数学模型,数据库搜索中的序列错误影响的分析,开发新的数据库搜索和多重序列对齐算法,建立非冗余序列数据库,序列相似性的统计显著性评估的数学模型,和文本检索的矢量模型。
·数据库和软件:承担对GenBank DNA 序列数据库管理和维护。
2)NCBI资源
·Entrez:整合的搜索和检索系统。用于对文献、序列、结构和基因组等数据库进行关键词查询。
·BLAST:序列相似搜索程序,能够在小于15秒的时间内对整个DNA数据库执行序列搜索。
·附加软件工具:ORF Finder,e-PCR, VecScreen,Sequin和BankIt等。
·PubMed:由NCBI开发的用于检索MEDLINE、Pre-MEDLINE数据库的网上检索系统。
MEDLINE:美国国立医学图书馆(NLM)编辑出版的国际综合生物医学信息书目数据库,是当今世界上最大也是最权威的生物医学文献数据库。收录约3900余种生物医学核心期刊的文献题录和文摘。
·涉及的主要学科领域有:基础医学、临床医学、护理学、口腔医学、兽医学、卫生保健及预防医学等
MEDLINE的记录包含PubMed unique identifier(PMID)以及【PubMed-indexed for MEDLINE】
Pre-MEDLINE为临时性医学文献数据库。每日更新,每周向MEDLINE移加一次。Pre-MEDLINE的记录带有一个记号【PubMed-in process】
如果选择Limits的任何一项,检索将限制在Medline数据库中进行,PreMedline则被排除在外。因为这些特征限制只有MEDLINE中才有。
在History状态下,可以将检索式用逻辑运算符连接起来后再检索。
·“*”可作通配符,只限于单词,对词组无效。譬如:“infection*”包括infections,但不包括infection control。
·允许使用双引号“”进行短语检索,例如“
·布尔逻辑检索的运算顺序为从左到右,可使用圆括号来改变其运算顺序。圆括号最先运算。
四、COG
COG是Cluster of Orthologous Groups of proteins(蛋白相邻类的聚簇)的缩写
构成每个COG的蛋白都是被假定为来源于一个祖先蛋白,包括orthologs(直系同源物)和paralogs(旁系同源物)的orthologs。
Orthologs:在不同物种中的由同一祖先进化而来的蛋白,它们都具有与原始蛋白相同的功能。譬如,人和鼠的 球蛋白。
Paralogs:在某特定物种中的来源于基因复制不同的蛋白,可能会进化出新的与原来有关的功能。譬如,人的 球蛋白和 球蛋白、
·蛋白的注释:COG的一个蛋白成员的已知功能(以及二维或三维结构)可以直接应用的到COG的其他成员上去。
·种系发生图谱:可以了解在一个特定的COG中一个给定物种是否存在某些蛋白,或者某个代谢途径。
·多重比对:可以用来确定保守序列残基,以及分析成员蛋白的进化关系。
Refseq 是NCBI数据库的参考序列
提供综合的、非冗余的序列数据和相关信息,包括基因组DNA、RNA及蛋白产物等。为基因组功能注释、突变分析、比较分析、基因表达研究、多态发现等提供一个基础和参考点。