引文来自丁香园http://www.dxy.cn/bbs/topic/23549104
给出一个未知序列,请问:
1.该序列是什么序列?是基因吗?若是基因,该基因是什么物种中的什么基因?该基因在基因组中定位在哪里?
1.该序列是什么序列?是基因吗?若是基因,该基因是什么物种中的什么基因?该基因在基因组中定位在哪里?
2.该基因的功能是否已知?若已知,则有何主要功能?
3 .计算该序列A、C、G、T四种碱基的含量,并利用DNAStar Lasergene绘制ApoI和BamHI两种内切酶在该序列上的酶切图谱和模拟电泳图。
4.该基因是编码蛋白质的基因吗?其编码的蛋白质是什么?属于哪一个家族?计算该蛋白质的分子量和等电点分别是多少?使用Anthepro预测该蛋白质的二级结构。
5.若其编码一个蛋白质,则该蛋白质上可能有哪些结构域?这些结构域分别有何功能?该蛋白质的三维结构是否已经得到实验解析?
6.若蛋白质的三维结构已知,使用pymol绘制该蛋白质的sticks形式的结构模型,并显示原子价。此外,进一步绘制该蛋白质的cartoon形式的结构模型,使用不同颜色来显示不同的二级结构元件,并去掉侧链构象。结构模型保存为图片。
7.若蛋白质的三维结构未知,请使用一种蛋白质结构预测方法(例如:swiss-model)预测该蛋白质的三维结构。
8.若该基因组编码一个该蛋白质,请在另外的至少5个物种中(物种不限)找到该蛋白质的同源蛋白质。给出这些同源蛋白在Uniprot中的名称和序列号。
9.如果你找到了另外5个以上的同源蛋白,则对这些同源蛋白质(包括该蛋白质本身)进行多序列比对,并构建进化树。若不能找到同源蛋白,请给出解释(为何没有同源蛋白?)
10.分别使用两种软件预测可能调控该基因的miRNA,并简单比较两种软件的预测结果?
2、实验方法与主要步骤
(1)、该序列是什么序列?是基因吗?若是基因,该基因是什么物种中的什么基因?该基因在基因组中定位在哪里?
①输入http://blast.ncbi.nlm.nih.gov/Blast.cgi打开“NCBI/BLAST Home”主页
②在“Basic Blast”的“Choose a BLAST program to run”中选择“nucleotide blast”
③在“NCBI/
④选择序列NM_000748.2;,其分数最高1.058e+04,且Query coverage为100%,Max ident为100%,均为查询出来的14条序列中最高的,点击“Gene info ”
得知为:Homo sapienscholinergic receptor, nicotinic, beta 2 (neuronal) (CHRNB2), mRNA,是人类的CHRNB2 cholinergic receptor, nicotinic, beta 2的mRNA,基因序列号是:NM 000748.2;该基因定位于人类的1号染色体的1q21.3,位置:NC_000001.10(154540257..154552354)。
(2)、该基因的功能是否已知?若已知,则有何主要功能?
功能已知,数据库描绘为:Neuronal acetylcholine receptors are homo- or heteropentamericcomplexe
退回刚才BLAST查询的结果页面,点击Accession处的序列号NM 000748.2,在CDs处点击“protein_id="NP_000739.1"”获取该基因的蛋白质序列文件,得知:人的neuronal acetylcholine receptor subunit beta-2 precursor蛋白质包含502个氨基酸,序列标识符为:NP_000739.1。②点击“NCBI Reference Sequence: NP_000739.1”下的“FASTA”以获取蛋白质FASTA序列为:>gi|4502833|ref|NP_000739.1| neuronal acetylcholine receptor subunit beta-2 precursor [Homo sapiens]MARRCGPVALLLGFGLLRLCSGVW
③选择“Analyze this sequence”的“Identify Conserved Domains”为Conserved domains on[gi|4502833|ref|NP_000739|,得知:
结构域功能及图示如下:
D03788:细胞外离子通道,是一个已知的五聚物。
D0839:这个大家庭包括四膜螺旋状物,形成离子通道。
LIC:The Ligand - gatedIon Channel LIC Family of Neurotransmitter Receptors TC 1.A. 9Members of theLIC family of ionotropic neurotransmitter receptors are found only invertebrate and invertebrate animals. They exhibit receptor specificity for1acetylcholine, 2 serotonin, 3 glycine, 4 glutamate and 5 g - aminobutyric acidGABA. All of these receptor channels are probably hetero - orhomopentameric.The best characterized are the nicotinic acetyl - choline receptors which arepentameric channels of a2bgd subunit composition. All subunits arehomologous.The three dimensional structures of the protein complex in both the open andclosed configurations have been solved at 0.9 nm resolution. The channelprotein complexes of the LIC family preferentially transport cations or anionsdepending on the channel e.g. , the acetylcholine receptors are cationselectivewhile glycine receptors are anion selective.
(3)、计算该序列A、C、G、T四种碱基的含量,并利用DNAStar Lasergene绘制ApoI和BamHI两种内切酶在该序列上的酶切图谱和模拟电泳图。
①应用DNASTAR.Lasergene.v7.1的EditSeq软件分析碱基含量,从电脑“开始”→“所有程序”→“Lasergene”→“EditSeq”,选择“File”→“Import”打开所需检测的序列,选择“Edit” →“Select All”,然后选择“Goodies”→“DNA Statistics”,得知结果:
A21.3% G 27.92% T 21.69% C29.37%
②首先应用DNASTAR.Lasergene.v7.1的EditSeq软件将上述序列保存为“*.seq”格式,再应用DNASTAR.Lasergene.v7.1的GeneQuest软件,从电脑“开始”→“所有程序”→“Lasergene”→“GeneQuest”,选择“File”→“Open”打开所需检测的序列,点击“More Methods”中“Enzymes-Restriction Map”前面的“+”,打开内切酶一览表。然后选定两种
特定的内切酶ApoI和BamHI,拖入分析界面,即可以看见该酶的酶切位点在序列上的位置:
从“SITES & FEATURES”菜单选择“Agarose Gel Simulation”,则新窗口即显示酶切片段在electrophoretic的分离情况如左图。
(4)、该基因是编码蛋白质的基因吗?其编码的蛋白质是什么?属于哪一个家族?计算该蛋白质的分子量和等电点分别是多少?使用Anthepro预测该蛋白质的二级结构?
①是编码蛋白质的基因,其编码的蛋白质有第一问第二步知为人的neuronal acetylcholine receptor subunit beta-2 precursor蛋白质包含502个氨基酸,序列标识符为:NP_000739.1。②然后打开软件Editseq,点击file-new-new protein 打开窗口,把第一道题目中的蛋白质序列复制粘帖至软件得到:分子量为57019.34 Daltons,等电点为ph=6.60.
③打开http://pfam.sanger.ac.uk网站,点击SEQUENCESEARCH出来一个输入框,复制第一问得到的蛋白质序列,点go得到下图,提示此蛋白属于2个家族一个为Neur chan LBD,一个为Neur chan memb。
④打开Anthepro6.0软件,导入序列结构,点击Method/Secondarystructure prediction/Garnier
(5)、若其编码一个蛋白质,则该蛋白质上可能有哪些结构域?这些结构域分别有何功能?该蛋白质的三维结构是否已经得到实验解析?
答:在第二题③中结构域及功能已阐释。
进入ExPaSy主页面:http://www.expasy.ch/,点击“Popular resources”中的“uniproot”,再点击blast ,然后输入前面查询出来的蛋白质FASTA序列,在datebase中选择UniProtKB/Swiss-Prot。后点击“ BLAST”,得知:
点击p17787在网页最下面可以看到蛋白质
点击箭头可以看到
(6)、若蛋白质的三维结构已知,使用pymol绘制该蛋白质的sticks形式的结构模型,并显示原子价。此外,进一步绘制该蛋白质的cartoon形式的结构模型,使用不同颜色来显示不同的二级结构元件,并去掉侧链构象。结构模型保存为图片
答:进入网站http://www.rcsb.org/pdb/home/home.do,根据前述直接搜索蛋白质文件名2GVT,然后点击下载得到2gvt.pdb文件。
打开pymol软件,点击file-open-打开刚刚下载的序列文件2GVT.pdb文件在pymol>输入show sticks 然后选择display-show valence(截图1)
然后在pymol>输入show cartoon,选择右键-all-hide-side chain,选择右键-all-color选择你的颜色(截图2)
截图1 截图2
(8)若该基因组编码一个该蛋白质,请在另外的至少5个物种中(物种不限)找到该蛋白质的同源蛋白质。给出这些同源蛋白在Uniprot中的名称和序列号。
答:进入网站http://www.uniprot.org,点击blast,在代码框输入蛋白质序列,点击blast得下图同源序列。
|
|
|
|
|
|
|
|
|
|
|
|
|
|
分别点击Acession得到同源蛋白fasta格式的序列文件如下:
>tr|F7GMZ4|F7GMZ4_MACMUUncharacterized protein OS=Macaca mulatta GN=NICB2 PE=3 SV=1
MARRCGPVALLLGFGLLRLCSGVW
>tr|F7HLC2|F7HLC2_CALJAUncharacterized protein OS=Callithrix jacchus GN=CHRNB2 PE=3 SV=1
MARRCGPVALLLGFGLLQLCSGVW
>tr|F1RGM6|F1RGM6_PIGUncharacterized protein OS=Sus scrofa GN=CHRNB2 PE=3 SV=1
MAWRSGPMALLLSIGLLGLCSGVW
>tr|F1MUN1|F1MUN1_BOVINUncharacterized protein OS=Bos taurus GN=Bt.13038 PE=3 SV=1
MAWLSGPKAMLLSFGLLGLCSGVW
>tr|Q8BGP7|Q8BGP7_MOUSE Cholinergic receptor, nicotinic, beta polypeptide 2 (Neuronal) OS=Mus musculus GN=Chrnb2 PE=2 SV=1MARCSNSMALLFSFGLLWLCSGVL
(9)如果你找到了另外5个以上的同源蛋白,则对这些同源蛋白质(包括该蛋白质本身)进行多序列比对,并构建进化树。若不能找到同源蛋白,请给出解释(为何没有同源物?)
①欲对题目六中找到的6个同源蛋白及该蛋白本身进行多序列比对,此处使用软件MEAG4.0进行多序列比对,点击“File”→“Load Sequence”输入序列文件,然后点击“Alignment”→“Alignment by Clustalx”设定比对参数(此处选择默认参数),再点击OK进行比对知道:该蛋白氨基酸序列与Macaca mulatta;Callithrixjacchus;Sus scrofa;Bos taurus;Myotis lucifugus的同源蛋白序列比对,有保守结构区域MAVALLL;TDTEELVLLDD等。
②构建进化树知道人和Macacamulatta关系在进化上关系密切。
Neighbor-joining tree
Minimum-evotion tree
10.分别使用两种软件预测可能调控该基因的miRNA,并简单比较两种软件的预测结果?
答:
①http://www.targetscan.org/网站提供targetscan在线预测对mRNA有作用或着影响的miRNA,针对本题目在Entera human Entrez Gene symbol (e.g. "LIN28")l栏输入CHRNB2后点击提交,可以得到如下结果:
Conserved:hsa-miR-130a;hsa-miR-301b;hsa-miR-454;hsa-miR-130b;hsa-miR-301a。截图如下
Poorly conserved:hsa-miR-454;hsa-miR-130b;hsa-miR-130a;hsa-miR-301a;hsa-miR-301b。截图如下
②http://mirbase.org/search.shtml网站提供小于1000bp序列预测miRNA。针对此序列过长,我们查找其影响开放读码框架的miRNA。首先我们找到此序列的一个开放读码框架,然后在此网站查询得:
如果要查询此全序列的可能对其有影响的miRNA我们只能将序列分割成5段,每段小于1000个bp然后提交查询预测结果,但这样存在一个弊端,及分割处是否存在对其有影响的miRNA我们不得而知。以前1000个序列为例查询可得结果如下:
比较这两种网站查询搜索,各有利弊,第一个网站http://www.targetscan.org/提供利用targetscan对miRNA进行筛选,其严格要求与seed区严格配对,接着延伸序列直到不配对的区域,开始过程就排除了假阳性。然后根据保守型原则,淘汰不具有3‘UTR的保守序列分子,其假阳性率为22%-31%之间,具体操作为输入entrez序列编号点击提交就可以得到预测的结果,其中有一个优点是不限制基因序列长度;但第二个网站查询要限制提交序列长度为小于1000bp,针对长序列的研究不够方便。 两个网站预测的结果差异很大,只能提供大体方向,如要确实是否发生作用,可用实验的方法加以逐个确实。
3、实验结果
(1)、针对该序列:
该基因为人类的CHRNB2cholinergic receptor, nicotinic, beta 2的mRNA,基因序列号是:NM 000748.2;定位于人类的1号染色体的1q21.3,位置:NC_000001.10(154540257..154552354)。
该序列四种碱基的含量A21.3%; G 27.92% ;T 21.69% ; C29.37%。
内切酶ApoI在该序列上有2处酶切位点,而内切酶BamHI在该序列上有3个酶切位点;
其编码的是neuronal acetylcholine receptor subunit beta-2 precursor蛋白质包含502个氨基酸,序列标识符为:NP_000739.1。是编码的一种神经元乙酰胆碱β亚基的离子通道受体蛋白。
(2)、针对该序列翻译的蛋白质:其翻译产物为人的neuronal acetylcholinereceptor subunit beta-2 precursor蛋白质。
①与该蛋白相关的数据:
该蛋白质的序列标识符(NCBI Reference Sequence)为:
UniProt序列号为P01344,UniProt名称为P17787;
该蛋白的三级结构已知,在PDB ID为igvt;
该蛋白质包含502个氨基酸,其分子量为分子量为57019.34 Daltons,等电点为PH=6.60。
②该蛋白质的功能:
(3)、该蛋白质与其他物种同源蛋白比对:
该蛋白氨基酸序列与Macaca mulatta;Callithrix jacchus;Sus scrofa;Bos taurus;Myotis lucifugus的同源蛋白序列比对,有保守结构区域MAVALLL;TDTEELVLLDD等。
根据构建的进化树,可以初步知道:人和Macacamulatta的进化关系较近。
4、讨论
经过多种数据库查询和各种处理软件综合分析,NCBI数据库的BLAST工具经局部双序列比对的数据库相似性搜索,可以知道该 (NM_000748.2)是编码人类的神经元乙酰胆碱离子通道受体蛋白的mRNA序列,其基因定位于人类的1号染色体的1q21.3,位置从154540257nt到154552354nt,有多个开放读码框架。为进一步了解该序列的分子生化特性,可对其应用DNASTAR.Lasergene.v7.1的EditSeq软件进行碱基含量分析,可知四种碱基的含量分别为A21.3% G 27.92% T 21.69% C29.37%,并且可以应用DNASTAR.Lasergene.v7.1的GeneQuest软件的得到内切酶ApoI和BamHI在序列上的酶切图谱,了解到其酶切位点的位置并且模拟酶切片段在琼脂糖凝胶电泳上的分离情况。
我们知道neuronal acetylcholine receptor subunit beta-2 precursor蛋白质包含502个氨基酸,序列标识符为:NP_000739.1。其功能为:神经元乙酰胆碱受体是人类——或者heteropentameric配合物组成的α和β亚单位同源。他们属于超ligand-gated离子通道的允许流动的钠盐和钾盐穿过细胞膜回应配体如乙酰胆碱和尼古丁。这个基因编码几个β亚单位。这种常染色体基因相关突变可导致遗传性额叶癫痫症。我们可以应用mRNA序列查找起家族及其结构域域,通过家族已知相似的结构域功能推测未知相似结构域的功能及其编码的蛋白质。我们可以通过蛋白质数据库通过已知蛋白质序列查询同源序列,我们可以得知人的neuronal acetylcholine receptor subunit beta-2 precursor和Macaca mulatta;Callithrix jacchus;Sus scrofa;Bos taurus;Myotis lucifugus等脊柱动物在进化上有同源序列,通过多序列对比软件MEGA4,我们可以分析一下多序列存在的保守序列,也可以通过MEGA4软件构建邻近进化树和最小进化树,分析那种物种在进化上关系最近,那种物种在进化关系最远,对于我们理解物种在历史长廊的进化过程用重要的意义。综合以上数据库的搜索结果和不同分析软件的分析结果,从仅仅一条序列的核苷酸信息,我们不仅可以得到相关的核酸序列的基本信息,包括其核酸分子的生化信息和编码产物蛋白质,并且可以进一步了解到其编码蛋白质2VGT的分子生化信息、分子结构及其重要的功能,以及在其他物种中表达的情况,了解2GVT蛋白发生发展的进化过程及其中的保守结构域,以助于我们从各角度、各方位掌握该序列的各种信息并利于今后对其在各领域的相关应用。