如何利用Discovery Studio进行同源模建及分子动力学模拟??
(2011-02-21 22:49:00)
标签:
教育 |
一.什么是同源模建
X射线晶体学方法和多维核磁共振技术是目前测定蛋白质结构的主要方法。用X射线晶体学方法测定蛋白质结构的前提是必须获得能对X射线产生强衍射作用的晶体,而蛋白质晶体的表达、提纯与结晶增加了结构测定的难度;多维核磁共振技术避免了这些困难,而且能够测定蛋白质的溶液结构,但仅适用于小蛋白。
同源模建也称比较模建,这是目前应用最成功的一种方法.蛋白质根据序列同源性(sequence
iden1itv)可以分成不同的家族.一般认为序列同源性大于30%的蛋白质可能由同一祖先进化而来,称为同源蛋白质。同源蛋白质具有相似的结构和功能,所以利用结构已知的同源蛋白质可以建立目标蛋白质的结构模型,然后用理论计算方法进行优化.利用同源模建方法建立的蛋白质模型是以已知的同源蛋白质结构为基础的,所以这是一种基于现代生物学知识的预测方法。
二、同源模建的基本过程
包括六部分 :
1、目标序列与模板序列的匹配;
2、根据同源蛋白质的多重序列匹配结果,确定同源蛋白质的结构保守区(SCRs)以及相应的框架结构;
3、目标蛋白质结构保守区的主链模建;
4、目标蛋白质结构变异区(SVRs)的主链模建;
5、侧链的安装和优化;
6、对模建结构进行优化和评估序列。匹配对建立精确的结构模型起着关键作用。一般地,序列同源性越差,匹配的准确程度越低,建立的模型精度也越差;序列同源性低于30%的蛋白质难以得到理想的结构模型.
众所周知,结构决定性质,性质决定功能。药物设计、蛋白质功能分析、相互作用、抗原性行为以及更稳定或有新功能的蛋白质的合理设计都依赖于结构基础。如果在实验条件失败或者不允许的情况下,蛋白质建模就成为了获得结构信息的唯一途径。而蛋白质模建的最终目标是从序列预测在精度上能够和实验可能达到的最优结果相当的结构。
现在最常见的结构预测方法:同源模建、折叠类识别方法和从头计算。而其中同源模建是最容易的。
这项基础主要基于两个基本认识:
1.
一个蛋白质结构由其一级结构序列唯一确定。(Epstein,Goldberger&Anfinsen,1963)
2.
结构在进化中更加趋近于保守,结构比序列更加稳,因此相似的序列具有实际上等同的结构。简单地说,也就是序列发散,结构保守,功能发散。
同源模建的基本步骤:
1.
模板识别和初始比对,通过BLAST或者FASTA找到具有相似序列拥有结构的蛋白质。
2.
比对校正,利用序列比对进行精确比对。
常用的比较矩阵主要有两种PAM和 BLOSUM两种比较矩阵。
BLOSUM 80适用于序列相似度80~100%,BLOSUM 62适用于序列相似度 60~80%,BLOSUM 45,30以此类推。
而PAM(可接受变异百分比)PAM20 适用于序列相似度80~100% ;PAM 40适用于相似度 60~80%,以此类推。
通过选择合适对比矩阵可以得到较好的序列对比结果,这对于同源模建是至关重要的。
3.
主链生成
在同源模建中,主链的生成可以说得上是微不足道的,系统会根据序列比对后的结构,对序列一致度较高片段进行结构“copy”。
4.
环区模建
在主链生成后,模型和模版仍然存在缺口,这种缺口主要是由于插入缺失INDEL造成的。而这两种情况都会造成蛋白质的构象的变化,目前常用的两种方法主要是:一、基于知寻找已知的匹配的环区进行配对;二、基于能量 也就是从头计算。
5.
侧链模建
主要是独立区域的结构构建。方法同上。
6.
模型优化
主要是通过对模型进行分子动力学模拟来实现,在模拟中,仿真其折叠过程。在模拟中能够完成其折叠,回到真实结构。
7.
模型确证
主要通过各种指标来检验。说到底就是要有较高的序列一致度就对了啊。
现在目前的主流同源模建软件:Insight Ⅱ,DS, Sybyl.. etc
下面以DS为例简单介绍一下同源模建过程
单结构模板
1.
Protocol Explorer | Sequence Analysis |BLAST Search (DS sever)
参数设置如下:
Input sequence 为预构建模型的序列。
Input Database 为PDB_nr95
2.
在BLAST的结果中选择下载一个合适的模板。下载所选中结构的PDB,显示模板的序列。
3.
Protocol Explorer | Sequence Analysis | Align Multiple Sequence
根据需要选择合适的比较矩阵,运行结束后打开序列比对结果。
4.
Protocol Explorer | Protein Modeling | Homology Building
参数设置如下
Input Sequence Alignment :序列比对结果
Input Model Sequence :预模建的蛋白的序列
Input Template Structure :结构模板
然后根据需要选择Optimization Level
建议不进行Loop Refine,耗时。
多结构模板
1.
Protocol Explorer | Sequence Analysis |BLAST Search (DS sever)
参数设置如下:
Input sequence 为预构建模型的序列。
Input Database 为PDB_nr95
2.
在BLAST的结果中选择下载2~3个合适的模板。在同一个窗口打开,所有的PDB文件,然后显示选择模板蛋白的序列。
3.
进行结构比对Protocol Explorer | Protein Modeling | Analysis structure,比对结束后打开比对序列,然后进行Structure | Superimpose | By Sequence Alignment,将模板蛋白进行重叠。
4.
进行结构序列比对Protocol Explorer | Protein Modeling | Analysis Sequence with Structure
根据需要选择合适的比较矩阵,运行结束后打开序列比对结果。
5.
Protocol Explorer | Protein Modeling | Homology Building
参数设置如下
Input Sequence Alignment :序列比对结果
Input Model Sequence :预模建的蛋白的序列
Input Template Structure :结构模板(可根据需要选择模板个数)
然后根据需要选择Optimization Level
建议不进行Loop Refine,耗时。
模型分析
1.
Protocol Explorer | Protein Modeling | Verify Protein(Profiles-3D)
跑完看看分数就好。
Tips
1.
明确你要模建的蛋白质的结构,大多数蛋白质拥有多个蛋白质结构,有时候我们需要进行分析和模建的仅仅是其中一个结构域。这个可以通过NCBI的GenPept注释得到。选择的模板也需要使用DS独立复制出它的结构域。
2.
选择合适的比较矩阵,这对于同源模建是至关重要的。如果你下载的序列格式是fasta的话,请使用文档打开,然后修饰开头“<…”,只留下简单标注即可,因为DS经常因为无法识别开头的某些字符和出错。
3.
一般同源模建选择的模板需要30%以上的序列一致度,BLAST 的e值小于10的-5次方和较接近的序列一致度。在没有较高的序列一致度情况下,可以参考Rost(1999)的安全区域。如400个aa的蛋白质的序列一致度一般只有25左右就可以进行的同源模建得出的结果就是可接受的。
4.
模型分析是放屁。
二、同源模建的基本过程
包括六部分 :
1、目标序列与模板序列的匹配;
2、根据同源蛋白质的多重序列匹配结果,确定同源蛋白质的结构保守区(SCRs)以及相应的框架结构;
3、目标蛋白质结构保守区的主链模建;
4、目标蛋白质结构变异区(SVRs)的主链模建;
5、侧链的安装和优化;
6、对模建结构进行优化和评估序列。匹配对建立精确的结构模型起着关键作用。一般地,序列同源性越差,匹配的准确程度越低,建立的模型精度也越差;序列同源性低于30%的蛋白质难以得到理想的结构模型.
现在最常见的结构预测方法:同源模建、折叠类识别方法和从头计算。而其中同源模建是最容易的。
这项基础主要基于两个基本认识:
1.
一个蛋白质结构由其一级结构序列唯一确定。(Epstein,Goldberger&Anfinsen,1963)
2.
结构在进化中更加趋近于保守,结构比序列更加稳,因此相似的序列具有实际上等同的结构。简单地说,也就是序列发散,结构保守,功能发散。
同源模建的基本步骤:
1.
模板识别和初始比对,通过BLAST或者FASTA找到具有相似序列拥有结构的蛋白质。
2.
比对校正,利用序列比对进行精确比对。
常用的比较矩阵主要有两种PAM和 BLOSUM两种比较矩阵。
BLOSUM 80适用于序列相似度80~100%,BLOSUM 62适用于序列相似度 60~80%,BLOSUM 45,30以此类推。
而PAM(可接受变异百分比)PAM20 适用于序列相似度80~100% ;PAM 40适用于相似度 60~80%,以此类推。
通过选择合适对比矩阵可以得到较好的序列对比结果,这对于同源模建是至关重要的。
3.
主链生成
在同源模建中,主链的生成可以说得上是微不足道的,系统会根据序列比对后的结构,对序列一致度较高片段进行结构“copy”。
4.
环区模建
在主链生成后,模型和模版仍然存在缺口,这种缺口主要是由于插入缺失INDEL造成的。而这两种情况都会造成蛋白质的构象的变化,目前常用的两种方法主要是:一、基于知寻找已知的匹配的环区进行配对;二、基于能量 也就是从头计算。
5.
侧链模建
主要是独立区域的结构构建。方法同上。
6.
模型优化
主要是通过对模型进行分子动力学模拟来实现,在模拟中,仿真其折叠过程。在模拟中能够完成其折叠,回到真实结构。
7.
模型确证
主要通过各种指标来检验。说到底就是要有较高的序列一致度就对了啊。
现在目前的主流同源模建软件:Insight Ⅱ,DS, Sybyl.. etc
下面以DS为例简单介绍一下同源模建过程
单结构模板
1.
Protocol Explorer | Sequence Analysis |BLAST Search (DS sever)
参数设置如下:
Input sequence 为预构建模型的序列。
Input Database 为PDB_nr95
2.
在BLAST的结果中选择下载一个合适的模板。下载所选中结构的PDB,显示模板的序列。
3.
Protocol Explorer | Sequence Analysis | Align Multiple Sequence
根据需要选择合适的比较矩阵,运行结束后打开序列比对结果。
4.
Protocol Explorer | Protein Modeling | Homology Building
参数设置如下
Input Sequence Alignment :序列比对结果
Input Model Sequence :预模建的蛋白的序列
Input Template Structure :结构模板
然后根据需要选择Optimization Level
建议不进行Loop Refine,耗时。
多结构模板
1.
Protocol Explorer | Sequence Analysis |BLAST Search (DS sever)
参数设置如下:
Input sequence 为预构建模型的序列。
Input Database 为PDB_nr95
2.
在BLAST的结果中选择下载2~3个合适的模板。在同一个窗口打开,所有的PDB文件,然后显示选择模板蛋白的序列。
3.
进行结构比对Protocol Explorer | Protein Modeling | Analysis structure,比对结束后打开比对序列,然后进行Structure | Superimpose | By Sequence Alignment,将模板蛋白进行重叠。
4.
进行结构序列比对Protocol Explorer | Protein Modeling | Analysis Sequence with Structure
根据需要选择合适的比较矩阵,运行结束后打开序列比对结果。
5.
Protocol Explorer | Protein Modeling | Homology Building
参数设置如下
Input Sequence Alignment :序列比对结果
Input Model Sequence :预模建的蛋白的序列
Input Template Structure :结构模板(可根据需要选择模板个数)
然后根据需要选择Optimization Level
建议不进行Loop Refine,耗时。
模型分析
1.
Protocol Explorer | Protein Modeling | Verify Protein(Profiles-3D)
跑完看看分数就好。
Tips
1.
明确你要模建的蛋白质的结构,大多数蛋白质拥有多个蛋白质结构,有时候我们需要进行分析和模建的仅仅是其中一个结构域。这个可以通过NCBI的GenPept注释得到。选择的模板也需要使用DS独立复制出它的结构域。
2.
选择合适的比较矩阵,这对于同源模建是至关重要的。如果你下载的序列格式是fasta的话,请使用文档打开,然后修饰开头“<…”,只留下简单标注即可,因为DS经常因为无法识别开头的某些字符和出错。
3.
一般同源模建选择的模板需要30%以上的序列一致度,BLAST 的e值小于10的-5次方和较接近的序列一致度。在没有较高的序列一致度情况下,可以参考Rost(1999)的安全区域。如400个aa的蛋白质的序列一致度一般只有25左右就可以进行的同源模建得出的结果就是可接受的。
4.
模型分析是放屁。