SNP基因序列的检索(图)

标签:
杂谈 |
以检索NAT2的不同SNP的基因序列为例:
1、Genbank里的dbSNP数据库中有详细的信息,方法如下:
(1)进入NCBI的主页 http://www.ncbi.nlm.nih.gov/,然后,Search下拉菜单中选“ SNP”,搜索for “NAT2”。
(2)搜索了一下,人类的NAT2SNP数据库记录有279条,如下图所示,每一条你都可以点进去看它的具体情况。
http://www.biomart.cn/upload/asset/2008/07/22/1216476619.gif
(3)以 rs36014863为例,你点进去后,出现下图的页面,里面示SNP数据库中关于这个SNP的全部信息,从里面,你大致可以获取SNP的位置,其上下游的核苷酸侧翼序列信息,多群体报道的情况,SNP提交情况,不同群体的杂合度报道参考信息……
http://www.biomart.cn/upload/asset/2008/07/22/1216476620.jpg
(4)或者你直接进入NCBI的主页 http://www.ncbi.nlm.nih.gov/,直接搜索NAT2,出现下图中的界面,选择SNP,然后有相关SNP记录476条,点击进入后,选择HUMAN 279条,然后再逐个观察。
http://www.biomart.cn/upload/asset/2008/07/22/1216476621.gif
2、但是,从整个基因组的SNP分布和NAT2基因的位置关系上直观的工具,Genbank并不是很理想的,推荐配合Genewindow结合使用,Genewindow是很好的动态平台,十分直观,可以清晰的显示SNP的分布情况和基因内含子、外显子、调控区的关系,可以用于整体选择时使用,个人使用后感觉效果非常满意。
Genewindow的进入方法:http://genewindow.nci.nih.gov/,推荐大家使用!使用前需要安装一个插件,然后后续的界面十分友好。
Real time PCR检测SNP的方法是:
针对目标基因片段的突变位点,设计两条引物,这两条引物的区别仅仅是末端的1-2个碱基不同,分别与突变位点匹配。共同的下游引物和探针。然后扩增。就可以得到不同的CT值,根据CT值的不同,来确定基因类型。
根据蛋白序列寻找SNP:
1 、把蛋白序列对应的核酸序列找到。
2 、根据核酸序列做BLAST (对dbSNP数据库http://www.ncbi.nlm.nih.gov/SNP/snpblastByChr.html)。
3 、结果中,可以得到你的序列上所以已知的SNP。
以编码5-hydroxytryptamine (serotonin) receptor的HTR1A基因为例,先进入entrez,选择gene选项,在NCBI中搜HTR1A基因,到如下图界面,点基因缩略图,然后点graphics。
http://www.biomart.cn/upload/asset/2008/07/22/1216698745.jpg
点击后的界面如下。这里已经很清楚地标明了SNP所在的位置以及对应的核酸与蛋白序列。但有一点要说明,我注意到这个基因编码的蛋白序列与swissprot的序列有一些差别,很可能是收录的版本不同,或是有些序列是NCBI直接根据orf形成的。
http://www.biomart.cn/upload/asset/2008/07/22/1216698746.jpg
SNP位点的选择:
1,如果是检测基因的所有已知的SNP,那么首先要去了解并查询到这些SNP位点,SNP位点可以通过查询dbSNP数据库(http://www.ncbi.nlm.nih.gov/SNP/)和TSC(The SNP Consortium)数据库(http://snp.cshl.org/),可以获知基因及上下游邻近序列的SNP位点。
2,至于挑选的原则,可以介绍一下Hap Map的正规化标准:
SNP Selection Criteria
Category 1 "verified"
This contains all SNPs for which we have allele frequency or genotyping data. This includes SNPs from the TSC allele frequency project, as well as SNPs characterized by JSNP. These SNPs were generated from those rs clusters in which at least one of the SNPs in the cluster contains genotype or allele frequency data and the minor allele must have been seen in at least two individuals.
Category 2 "two-hit"
These are true double-hit SNPs, produced in collaboration with Jim Mullikin and Sarah Hunt. A double-hit SNP must be seen twice, in two different DNA samples which must have produced two alleles. TSC trace data was only allowed to contribute one hit per allele because the individual source DNA for a trace could not be identified.
Category 3 "jsnp-verified/perlegen-verified"
This category contains two groups: SNPs that JSNP certifies are likely to be real based on manual inspection of their data (but have not been genotyped), and SNPs that Perlegen verified independently.
Category 4 "bac-overlap"
These are SNPs from BAC overlaps that do not fall into category 1 or 2 above.
一个水稻SNP数据库: