NCBI术语系列之一:EST (网文整理)
(2011-12-28 10:18:22)分类: before2014/12 |
EST
如果有一天,生物体的基因序列都已经测序完成,那么对研究者来说,最基本的资源就是所研究生物的基因的简单列表。如果有了基因列表,再加上一些研究这些基因的物理试剂,相关的电子信息,就可以让研究者来研究这个基因是如何影响生物体各个系统的。然而,当医学和农业上有重要价值的生物的测序工作还没有完成的时候,表达的cDNA就是研究基因序列的主要资源了,即使是生物体的全部基因组序列已经完成,收集cDNA信息也能为鉴别基因提供有用的信息。这样,我们预料在将来对转录序列的测序工作仍然是非常有意义的。
高通量的cDNA测序工作开始于1991年,Venter和他的同事作出了非凡的工作。基本的策略是:随机选择cDNA,然后自动地选择一个或两个插入点,从插入点进行一次测序。他们引入了EST这一术语来专指通过这种手段测得的序列。一般来说,EST都很短(典型的为400至600个碱基),而且不太准确(错误率大约在2%)。单次测序是一个重要的特点,因为这样可以使这种方法更有效。在大多数情况下,目的不是鉴定并详细研究这一个clone,只是将它和已知的基因序列或其他EST进行比较。一般来说,多数的EST会和已知的序列有重复,有一部分会代表各种各样的人为的污染。在最后处理之前没有必须为了得到高质量的测序结果而花费更多。
尽管EST有片段性和不准确性,但它仍是发现新基因的宝贵资源,尤其是那些和人类疾病有关的基因。除了最初的EST计划外,许多类似的开始进行,结果EST的数目飞长。另外,为了实验需要,一些为其他物种进行的大规模的EST项目也在进行。在1992年,一个名叫dbEST的数据库被建立起来,它的目的就是存储EST,后来,作为一GeneBank的一个分支向研究团体开放。EST接着就成为GeneBank的主要的组成部分,大约占全部序列的三分之二。
为了使EST的测序工作产生更多有价值的结果,在cDNA克隆库的构建过程中有些细节需要注意。例如,在测序工作中要采用一个标准化步骤,以消除高表达的基因的影响,方便检测表达量稀少的基因的转录。最近,已有能够建立不包含已提交到EST的cDNA库的抽提技术。尽管这些技术可以更有效地找出在特异组织低表达的基因,但是有一小部分基因由于在这些组织中没有表达,所有它们不能被检测到。
EST是鉴定克隆和基因结构的有力的工具。全插入的cDNA克隆更有益。到目前为止高能量的全插入cDNA测序项目已成为超过8000提交序列的来源。全插入的cDNA可以鉴定已经测序完成的转录子的翻译产物。也可能提供基因结构的证据。而且,对于想利用cDNA制作试剂的研究者来说,如果全长cDNA测序项目将他们的cDNA序列对外界开放,他们手头就有准确的全长cDNA序列,不必再重新从头对cDNA进行全部测序了。验证cDNA克隆是否对应于感兴趣的转录序列或全长编码序列是可能的,而且不需要消耗实验室的资源和时间。cDNA库一般来说不包含全长的转录序列,因此,很多全长并不包含全部的转录单位。大的转录子(大于6kb),尤其难以获得。