加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

如何查找一个基因的启动子序列

(2011-03-27 09:04:29)
标签:

转录区

启动子

外显子

转录因子

路径

杂谈

分类: 分子生物学知识与技术
如何查找一个基因的启动子序列

定义:启动子是参与特定基因转录及其调控的DNA序列。包含核心启动子区域和调控区域。核心启动子区域产生基础水平的转录,调控区域能够对不同的环境条件作出应答,对基因的表达水平做出相应的调节。
区域:启动子的范围非常大,可以包含转录起始位点上游2000bp,有些特定基因的转录区内部也存在着转录因子的结合位点,因此也属于启动子范围。
这项搜寻要从UCSC基因组浏览器开始,网址为http://genome.ucsc.edu/cgi-bin/hgGateway。以编码pendrin (PDS)的基因为例来说明上述问题。PDS与耳蜗的异常发育、感觉神经性听力下降以及弥散性甲状腺增大(甲状腺肿)有关。
  进入UCSC的主页后,在Organism的下拉菜单中选择Human,然后点击Browser。使用者现在到了人类基因组浏览器入口。本例的搜寻很简单:在assembly的下拉菜单中选择Dec. 2001,在position框中键入pendrin,然后点击Submit。返回的页面结果显示一个已知的基因和两个mRNA序列。继续点击mRNA序列的登录号AF030880,出现包含这个mRNA区域的图解概要。为了获得这个区域更清晰的图像,点击紧靠zoom out的1.5X按钮。最后点击页面中部的reset all按钮,使各个路径的设置恢复默认状态。
  然而,对于本例的搜寻目的来说,默认设置不是理想的设置。按照视图利用页面底部的Track Controls按纽,将一些路径设置为hide模式(即不显示),其他设置为dense模式(所有资料密集在一条直线上);另一些路径设置为full模式(每个特征有一个分开的线条,最多达300)。在考虑这些路径内究竟存在那些资料之前,对这些路径的内容和表现做一个简要的讨论是必要的,许多这些讨论是由外界提供给UCSC的。下面是对基因预测方法的更进一步讨论,这些信息也可以在其他地方找到。
  对于Known Genes(已知基因)和预测的基因路径来说,一般的惯例是以一个高的垂直线或块状表示每个编码外显子,以短的垂直线或块状表示5′端和3′端非翻译区。
  起连接作用的内含子以非常细的线条表示。翻译的方向由沿着细线的箭头指示。
  Known Genes来自LocusLink内的mRNA参照序列,已经利用BLAT程序将这些序列与基因组序列进行比对排列。
  Acembly Gene Predictions With Alt-splicing路径是利用Acembly程序将人类mRNA和EST序列数据与人类基因组序列进行比对排列而来的。Acembly程序试图找到mRNA与基因组序列的最好的比对排列以及判断选择性剪接模型。假如有多于1个的基因模型具有统计学意义,则它们都全部显示出来。有关Acembly的更多信息可以在NCBI的网站找到(http://www.ncbi.nih.gov/IEB/Research/Acembly/)。
  Ensembl Gene Predictions路径由Ensembl提供。Ensembl基因通过许多方法来预测,包括与已知mRNA和蛋白质进行同源性比较,ab initio基因预测使用GENSCAN和基因预测HMMs。 http://www.ebi.ac.uk/ensembl/  Fgenesh++ Gene Predictions路径通过寻找基因的结构特征来预测基因内部的外显子,例如剪接位点的给位和受位的结构特征,利用一种动态的程序算法推定编码区域和推定外显子5′端和3′端的内含子区域;这个方法也考虑到蛋白质相似性的资料。
  Genscan Gene Predictions路径由GENSCAN方法衍生而来,通过这个方法,可以确定内含子、外显子、启动子区域和poly(A)信号。此时,这个方法并不期望查询的序列只出现1个基因,因此可以对部分基因或被基因之间的DNA分隔的多个基因进行准确的预测。
  Human mRNAs from Genbank路径显示基因库的人类mRNAs与基因组序列的比对排列。
  Spliced ESTs和Human EST路径显示来自GenBank的ESTs序列与基因组的序列对齐比较。由于ESTs通常代表了转录基因的片断,一个EST很有可能对应于某个外显子区。
  最后,Repeating Elements by RepeatMasker这个路径显示的是重复元件,例如散在的或长或短的核元素(SINEs和LINEs),长末端重复序列(LTRs)和低复杂性区域(http://repeatmasker.genome.washington.edu/cgi-bin/RepeatMasker)。一般来说,在将基因预测方法应用于核苷酸序列之前,需要去掉或掩饰这些成分。
  回到视图显示的例子,可以看到大多数路径返回了几乎同样的基因预测结果。作为一个规则,通过多种方法预测的外显子提高了预测的正确率而不会出现“假阳性”结果。多数方法显示3′端非翻译区,以左侧大而短的块状表示。Acembly路径显示除了全长序列产物(如这个部分第3条线所示)之外还有3个可能的选择性剪接,其它大多数路径显示与此预测结果相符。Genscan路径从左、右方向往远处延伸:GENSCAN可以被用于预测多个基因。
  尽管这些图解概要很有用,然而研究者更需要与这些垂直线或块状相对应的序列。以此为例,用Fgenesh++预测作为获得原始序列数据的基础,但不管选择哪个路径其步骤都是一样的。点击标有Fgenesh++ Gene Predictions的路径,出现的是一个描述预测的概要页面。
  序列的区域与pendrin基因相似(从这个例子一开始就已经知道了)。给出了序列的大小及序列开始和结束的预测,并显示预测是以负链为基础的。想要获得序列,点击Genomic Sequence。使用者将被带到一个标题为Get Genomic Sequence Near Gene的查询页面,在这个页面上,可以获得转录物、编码区、启动子或转录物加启动子的序列。
  点击Transcript返回的页面显示完整的转录子,外显子以大写字母表示。
  点击Coding Region Only得到的是编码区,外显子以大写字母表示。
  点击Transcript + Promoter,返回的页面显示的是在上述选择Transcript所获序列的5′端添加了启动子序列,以大写字母表示外显子。启动子的长度显示在文本框内。

 点击Promoter返回的页面正好是启动子区

 

2 基因启动子序列的预测分析
真核细胞的基因表达调节虽然是多个水平的调节,但主要是转录水平的调节. 转录水平的调节基础就是转录因子蛋白与启动子DNA序列之间的结合和激活. 转录因子蛋白的结构可以分成结合域(BD,binding domain)以及激活域(AD,activation domain). 作为基因启动子DNA的序列也具有特征性的结构. 但是相比较而言,目前基因启动子以及转录因子蛋白结合的种类,积累的资料还十分有限,数据库容量偏小,计算技术相对滞后,其预测结果仅供参考,还必须结合其他的分子生物学技术进行证实.
   一般情况下,确定了一种新基因的编码区序列之后,通过与htgs数据库的同源性比对,可以很方便地确定其相应的基因组DNA序列. 在确定编码基因的起始密码子之后,指导基因表达的启动子序列一般位于其上游基因序列300-3 000 nt之间,鲜有例外. 可以从翻译起始密码子上有的基因组DNA序列,选取3 000 nt左右的核苷酸序列进行生物信息学分析. 例如可以应用在线软件分析技术,或自行研发的启动子序列分析技术等软件分析,如:http://www.cbs.dtu.dk/services/promoter/、http://www.fruitfly.org/cgi-bin/seq_tools/promoter.pl,http://bimas.dcrt.nih.gov/molbio/proscan/等. 根据这些软件分析的结果,首先确定进行缺失突变体构建时应该采用的引物序列,如果一段序列的缺失导致报告基因表达水平的升高,那么说明这一段基因序列存在着启动子的静息子(silencer)的序列,对于基因的表达水平具有负调节作用. 通过逐步缺失的策略,最终确定启动子DNA的核心序列. 报告基因表达载体的构建以及细胞转染技术,仍然是目前研究基因启动子序列活性最为基本的方法.
   研究转录因子蛋白的结合及其对基因表达水平的调节作用和性质有许多技术,但是利用生物信息学技术预测的启动子DNA序列的结合的转录因子蛋白结果只有部分参考的意义. 凝胶迟滞(gel shift)试验、超级迁移实验(super shift)、竞争性结合实验、酵母单杂交技术(yeast one hybrid)、噬菌体展示技术(phage display)等在转录因子蛋白与启动子DNA序列结合的研究中具有重要应用前景.

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有