[转载]问题8:如何找到一个基因家族的所有成员HUGO基
(2012-08-19 21:14:34)
标签:
转载 |
分类: 分子实验 |
(http://www.gene.ucl.ac.uk/nomenclature/)一直以来都在努力为人类的每一个基因建立一种独特的符号,和一种更长久更具有描述性的名称。因而很多先前在不同的实验室被克隆出来并且被命名为各种不同术语的基因家族的成员,现在却分享一种共同的基因符号。在任何基因组浏览器进行一项文本搜索时,返回的页面通常都会链接到已经在基因组定位的该基因家族内所有已命名的成员。然而,Ensembl和
UCSC最近列出了所有的基因目录,NCBI不仅提供了基因的目录,还将基因绘制成比较直观的概要图谱。
进入NCBI主页,网址是http://www.ncbi.nlm.nih.gov/。点击位于右方的链接Human map viewer进入人类基因图谱浏览器搜索页。在查询框中键入所要查询的词“ADAM* [sym]”。星号或者通配符表示能够搜索到与ADAM有关的所有条目。然而[sym]却对以ADAM为其基因符号的所有搜索结果起到限制作用。可以点击 Advanced Search或者直接阅读在线的文献进行其他高级搜索。这次搜索一共获得了41个跟ADAM目标基因相匹配的条目,这些条目包括了ADAM基因家族的所有成员以及以ADAM开头的其它基因家族的一些成员,如ADAMTS和ADAMDEC。为了限定使搜索只指向ADAM基因,以排除掉不需要的基因符号,应该使用逻辑搜寻术语“NOT”。在搜索框中键入ADAM*[sym] NOT ADAMTS*[sym] NOT ADAMDEC1*[sym],然后再点击find。返回页面上方的染色体图形上,用红色的线条标明了每个基因的位置。很明显,19个已定位的ADAM基因分布在11条染色体上,有一些如位于10号和14号长臂顶端上的基因就靠的很近,在染色体图形的下面是ADAM家族的19个基因的排列,点击链接到那 19个基因,便可以查到它们的详细资料。
另外一个在基因组中搜索同源基因的方法是通过在NCBI或者Ensemble上的基本局部序列对齐比较搜索工具(basic local alignment search tool),简称BLAST。UCSC上的BLAT搜索没有BLAST敏感,可能没有BLAST发现的同源基因多。在这个例子中所有和ADAM2蛋白质同源的基因组序列将会在Ensembl上通过BLAST搜索获得。
从网址http://www.ensembl.org/Homo_sapiens/进入Ensembl人类基因组的主页,点击 BLAST链接。将ADAM2的蛋白质序列粘贴到查询框中(GenBank登录号NP_001455.2,按照问题5的步骤从NCBI的Entrez数据库中已经获得了蛋白质的序列)。将数据库设置成Homo sapiens, genomic sequence,在Ensembl上查找基因组汇编,选择TBLASTN运行。其他设置使用默认的参数。当这些全部做完以后,点击查询。得到的页面上将有一个检索符号,当检索完成以后,它将直接连接到检索结果的页面。
在检索结果页面的顶端将出现一个用图形来表示找到的蛋白质的位置。这些搜索结果有的是完整的蛋白质,有的只是一个单一的结构域。它们通过BLAST得分被标以不同的颜色。红色表示相似程度最大,蓝色的相似处最少,绿色介于两者之间。有一些区域如位于10号和14号染色体的长臂上的一对基因,它们的位置跟NCBI绘制的ADAMS基因的位置有些相似,但是也有一些,如位于第12号和Y染色体上用BLAST搜索的结果就是唯一的。这个唯一的结果可能代表ADAM家族中的真正成员,它们有可能还没有被命名,所以还不能在文本中搜索出来。还有可能它们是未被命名的假基因或是BLAST搜索不太重要的结果。位于第1号染色体上的一个基因也许可以在NCBI上以文本为基础的搜索中查到,但不一定在Ensembl中用BLAST搜索到。这个基因和 ADAM基因之间的相似之处还没有高到能用Ensembl的默认的参数值在BLAST中搜索出来。
点击其中一条搜索结果旁边的箭头,激活一个向上的菜单,菜单将显示BLAST所搜索结果的细节,并提供一个到BLAST序列对齐比较的的链接和ContigView。在第12号染色体上的搜索结果包括了一个终止密码,也许只是一个没有内含子的假基因。在结果页面底部是用BLAST搜索的结果摘要。点击一个链接到BLAST序列对齐排列的条目,在结果页面中部的链接将会用标准格式表示出BLAST报告的所有结果。点击一个BLAST搜索出来的条目,将会找到有关条目周围区域的ContigView。
进入NCBI主页,网址是http://www.ncbi.nlm.nih.gov/。点击位于右方的链接Human map viewer进入人类基因图谱浏览器搜索页。在查询框中键入所要查询的词“ADAM* [sym]”。星号或者通配符表示能够搜索到与ADAM有关的所有条目。然而[sym]却对以ADAM为其基因符号的所有搜索结果起到限制作用。可以点击 Advanced Search或者直接阅读在线的文献进行其他高级搜索。这次搜索一共获得了41个跟ADAM目标基因相匹配的条目,这些条目包括了ADAM基因家族的所有成员以及以ADAM开头的其它基因家族的一些成员,如ADAMTS和ADAMDEC。为了限定使搜索只指向ADAM基因,以排除掉不需要的基因符号,应该使用逻辑搜寻术语“NOT”。在搜索框中键入ADAM*[sym] NOT ADAMTS*[sym] NOT ADAMDEC1*[sym],然后再点击find。返回页面上方的染色体图形上,用红色的线条标明了每个基因的位置。很明显,19个已定位的ADAM基因分布在11条染色体上,有一些如位于10号和14号长臂顶端上的基因就靠的很近,在染色体图形的下面是ADAM家族的19个基因的排列,点击链接到那 19个基因,便可以查到它们的详细资料。
另外一个在基因组中搜索同源基因的方法是通过在NCBI或者Ensemble上的基本局部序列对齐比较搜索工具(basic local alignment search tool),简称BLAST。UCSC上的BLAT搜索没有BLAST敏感,可能没有BLAST发现的同源基因多。在这个例子中所有和ADAM2蛋白质同源的基因组序列将会在Ensembl上通过BLAST搜索获得。
从网址http://www.ensembl.org/Homo_sapiens/进入Ensembl人类基因组的主页,点击 BLAST链接。将ADAM2的蛋白质序列粘贴到查询框中(GenBank登录号NP_001455.2,按照问题5的步骤从NCBI的Entrez数据库中已经获得了蛋白质的序列)。将数据库设置成Homo sapiens, genomic sequence,在Ensembl上查找基因组汇编,选择TBLASTN运行。其他设置使用默认的参数。当这些全部做完以后,点击查询。得到的页面上将有一个检索符号,当检索完成以后,它将直接连接到检索结果的页面。
在检索结果页面的顶端将出现一个用图形来表示找到的蛋白质的位置。这些搜索结果有的是完整的蛋白质,有的只是一个单一的结构域。它们通过BLAST得分被标以不同的颜色。红色表示相似程度最大,蓝色的相似处最少,绿色介于两者之间。有一些区域如位于10号和14号染色体的长臂上的一对基因,它们的位置跟NCBI绘制的ADAMS基因的位置有些相似,但是也有一些,如位于第12号和Y染色体上用BLAST搜索的结果就是唯一的。这个唯一的结果可能代表ADAM家族中的真正成员,它们有可能还没有被命名,所以还不能在文本中搜索出来。还有可能它们是未被命名的假基因或是BLAST搜索不太重要的结果。位于第1号染色体上的一个基因也许可以在NCBI上以文本为基础的搜索中查到,但不一定在Ensembl中用BLAST搜索到。这个基因和 ADAM基因之间的相似之处还没有高到能用Ensembl的默认的参数值在BLAST中搜索出来。
点击其中一条搜索结果旁边的箭头,激活一个向上的菜单,菜单将显示BLAST所搜索结果的细节,并提供一个到BLAST序列对齐比较的的链接和ContigView。在第12号染色体上的搜索结果包括了一个终止密码,也许只是一个没有内含子的假基因。在结果页面底部是用BLAST搜索的结果摘要。点击一个链接到BLAST序列对齐排列的条目,在结果页面中部的链接将会用标准格式表示出BLAST报告的所有结果。点击一个BLAST搜索出来的条目,将会找到有关条目周围区域的ContigView。

加载中…