加载中…
正文 字体大小:

dbSNP的简单使用

(2015-08-05 16:20:06)
标签:

dbsnp

分类: biology
 首先,snpSingle Nucleotide Polymorphism的英文简称,其中文译为“单一核苷酸多型性”,意思是“DNA序列中的单一碱基对(base pair)变异”,也就是DNA序列中ATCG的改变,即基因组的一个特异和定位的位点出现两个或多个的核苷酸可能性,它是人类可遗传的变异中最常见的一种。占所有已知多态性的90%以上。SNP在人类基因组中广泛存在,平均每5001000个碱基对中就有1个,估计其总数可达300万个甚至更多。目前科学界已发现了约400万个SNPs SNP所表现的多态性只涉及到单个碱基的变异,这种变异可由单个碱基的转换(transition)或颠换(transversion)所引起,也可由碱基的插入或缺失所致。但通常所说的SNP并不包括后两种情况。

dbSNPdatabase of SNPWikipediaThe Single Nucleotide Polymorphism Database单核苷酸多态性数据库dbSNPhttp://www3.ncbi.nlm.nih.gov/SNP/)是由NCBI与人类基因组研究所(National Human Genome Research Institute)合作建立的,它是关于单碱基替换以及短插入、删除多态性的资源库。因为开发dbSNP 是为了补充和辅助 GenBank, 所以它包含了来自任何生物体的核苷酸序列。

dbSNP的数据结构

完整的数据以多种格式存于ftp站点:ftp://ftp.ncbi.nih.gov/snp/     数据库结构:自版本125起,dbSNP的设计改为“中心和辐条”模型,其中dbSNP_main表格为车轮的中心,其存储着数据库的主要表格,而车轮的辐条是具体生物体的数据库,其包含着具体生物体的最新数据。dbSNP使用标准的SQL DDL(Data Definition Language)为表格和索引创建模式表(schema tables)、视图。FTP数据库目录(ftp://ftp.ncbi.nih.gov/snp/database/)包含模式(schema)、数据、创建表格和索引的SQL语句。

shared_schema (ftp://ftp.ncbi.nih.gov/snp/database/shared_schema/)子目录包含dbSNP_main中表格的模式DDL(SQL Data Definition Language)

shared_data (ftp://ftp.ncbi.nih.gov/snp/database/shared_data/)子目录包含所有生物体共享的dbSNP_main的数据。

organism_schema (ftp://ftp.ncbi.nih.gov/snp/database/organism_schema/)子目录包含每种生物体具体数据库的模式DDL的链接。

主表格的表索引提供于位于shared_schema子目录中的dbSNP_main_index_constraint.sql.gzdbSNP_main_foreign_key.sql.gz文件。

每种生物体具体数据库的表索引位于organism_schema子目录中的organism_taxID_constraint.sql.gz organism_taxID_index.sql.gz文件。

包含表格和列描述的数据字典位于http://www.ncbi.nlm.nih.gov/SNP/snp_db_list_table.cgi

 

 SNP的模式实体联系图位于ftp://ftp.ncbi.nih.gov/snp/database/b124/mssql/schema/erd_dbSNP.pdf

创建dbSNP本地拷贝的资源需求

软件需求:

关系数据库软件,如Sybase, Microsoft SQL server, Oracle NCBIdbSNP运行于MSSQL server version 2000

数据加载工具:将dbSNP FTP站点数据加载到一个数据库需要批量数据加载工具,如伴随Sybasebcp (bulk-copy)实用程序或MSSQL server的“bulkinsert”命令。

解压ftp文件的winzip/gzip压缩软件。

硬件需求:计算机平台/OS、磁盘空间(500GB)、内存(4G)、Internet连接。

 

创建dbSNP本地拷贝的具体步骤见:http://www.ncbi.nlm.nih.gov/books/NBK21088/


 

dbSNP目录结构

点击:ftp://ftp.ncbi.nlm.nih.gov/snp/  则进入snp网址。dbSNP包含了许多目录,其中最有用的是:organisms/database/specs/

相关详细信息见ftp://ftp.ncbi.nih.gov/snp/00readme.txt

 FTP的“specs/”目录包含重要的文件的格式,内容及其基本介绍。

FTP的“organisms/”目录包含了一列有SNP数据的生物体目录,其按通用名后接NCBI分类id号来组织的。点击特定的生物体子目录即可访问其中的ftp报表文件,你还可以选择同一个物种的不同版本。比如你点击了human_9606 目录,那么你会发现人体组织子目录包含以下子目录:ASN1_bin/ASN1_flat/XML/VCF/chr_rpts/gene_report/Genome_report/rs_fasta/ss_fasta/genotype_by_gene/genotype/haplotypes/database/misc/、Enterz/

/ASN1_bin : ASN.1 二进制格式的RefSNP文档综述 .bin

/ASN1_flat :ASN.1 二进制格式而来的按染色体排序的RefSNP docsum(.flat)

/XML 提供refSNP簇的具体查询信息以及NCBI SNP交换格式的簇成员(.xml)

/chr_rpts :包含特定染色体上的RefSNPs 的完整列表(.txt)

/genotype :以基因型交换XML格式提供提交的SNPssubmitter和基因型信息(.xml)

/genome_reports :包含生物体SNP密度分布的概要报告以及每个基因中的SNPs的概要报告(无后缀或.rpt.log

/ss_fasta :包含FASTA格式的生物体的所有可用的submitted SNPss)序列数据(.fas)

/rs_fasta :包含FASTA格式的人类所有可用的参考SNP RS)序列数据(.fas)

 

   相关详细信息见ftp://ftp.ncbi.nih.gov/snp/00readme.txt

另外一个有用的网址:http://www.ncbi.nlm.nih.gov/variation/view/help/

/chr_rpts 中的txt文件内容:

dbSNP的简单使用

重要的几个内容是:

      RefSNP id (rs#)rs代号
      mapweight where 匹配个数
            1 = Unmapped
            2 = Mapped to single position in genome
            3 = Mapped to 2 positions on a single chromosome
            4 = Mapped to 3-10 positions in genome (possible paralog hits)
            5 = Mapped to >10 positions in genome.  
      snp_type where  snp类型
      Total number of chromosomes hit by this RefSNP during mapping   匹配到的染色体个数
      Total number of contigs hit by this RefSNP during mapping  匹配到的conting个数
      Total number of hits to genome by this RefSNP during mapping  匹配到基因组的个数
      Chromosome for this hit to genome   匹配到的染色体
      Contig accession for this hit to genome  匹配到conting 序号
 11      Position of RefSNP in contig coordinates  在conting中匹配到突变的位置
 12      Position of RefSNP in chromosome coordinates (used to order report)  在染色体中匹配到突变的位置
            Locations are specified in NCBI sequence location convention where:
                   x, a single number, indicates a feature at base position x
                   x..y, denotes a feature that spans from x to y inclusive.
                   x^y, denotes a feature that is inserted between bases x and y
 13      Genes at this same position on the chromosome    匹配到的基因名字
 18      Genotypes available in dbSNP for this RefSNP   基因型是否可知
             1 = yes
             0 = no

gene_report/中有各个基因的突变信息

dbSNP的简单使用

bed/中包含各个染色体上的snp,如下:

1.      chrom:  The name of the chromosome (e.g. chr1, chr2, etc.).
2.      chromStart:  The Reference SNP (rs) start position on the chromosome.
Note: The first base in a chromosome is numbered 0.
3.      chromEnd:  The rs end position on the chromosome.
Optional Fields:
4.      name:  The dbSNP Reference SNP (rs) ID
5.      score:  dbSNP does not assign a score value, so this field will always
contain a 0 .    
6.      strand:  This field defines strand orientation as either + or -.

dbSNP的简单使用

ASN1_flat /中包含了各个染色体的SNP的详细信息(包含以下9个信息):rs, ss, SNP, VAL, CLINSIG,GMAF,CTG,LOC,SEQ。每一个的具体信息如下:

dbSNP的简单使用

dbSNP的简单使用

 具体例子:

dbSNP的简单使用

VCF/: 具体信息查看:http://www.ncbi.nlm.nih.gov/variation/docs/human_variation_vcf/#table-1

主要的文件内容如下:

dbSNP的简单使用
主要的突变与临床的关系的文件如下:

dbSNP的简单使用
也就是clinical.vcf.gz文件中包含了突变与临床的信息,具体文件内容如下:

#CHROM POS  ID     REF  ALT  QUAL       FILTER      INFO

      948136    rs267598747                        RS=267598747;RSPOS=948136;dbSNPBuildID=137;SSR=0;SAO=3;VP=0x050060000305000002100120;GENEINFO=NOC2L:26155;WGT=1;VC=SNV;PM;REF;SYN;ASP;LSD;CLNALLE=1;CLNHGVS=NC_000001.11:g.948136G>A;CLNSRC=.;CLNORIGIN=2;CLNSRCID=.;CLNSIG=1;CLNDSDB=MedGen:SNOMED_CT;CLNDSDBID=C0025202:2092003;CLNDBN=Malignant_melanoma;CLNREVSTAT=no_assertion_provided;CLNACC=RCV000064926.2

它包含的内容:染色体,突变的位置,rs代号,突变过程,info。其中info包含了突变是否为同义突变?突变实在coding 区还是内含子或UTR?也包含了CLNSIG(0 - Uncertain significance, 1 - not provided, 2 - Benign, 3 - Likely benign, 4 - Likely pathogenic, 5 - Pathogenic, 6 - drug response, 7 - histocompatibility, 255 - other);CLNDSDB(Variant disease database name);CLNDBN(Variant disease name)

dbSNP的简单使用

dbSNP的简单使用

dbSNP的简单使用

dbSNP的简单使用

Enterz/目录下的内容如下:

dbSNP的简单使用


FTP的“database/”目录包含了模式(schema)、数据(data)、为dbSNP创建表和索引的SQL语句。

/shared_schema:包含在dbSNP_main中的所有表格的模式DDL(SQL Data Definition Language).sql

/shared_data:包含存在dbSNP_main中的所有生物体共享的数据(.bcp

/organism_schema:包含每个生物体具体数据库的模式DDL的链接(实际上是存放各种生物体模式DDL的文件夹)(.sql

/organism_data:包含每个生物体具体数据库的数据(.bcp

主表的表索引位于/shared_schema子目录下的dbSNP_main_index_constraint.sql.gz dbSNP_main_foreign_key.sql.gz

每个生物体的具体数据库的表索引位于/organism_schema:子目录下的organism_taxID_constraint.sql.gz organism_taxID_index.sql.gz

erd_dbSNP.pdf:包含整个dbSNP数据库的实体联系图

 

有关ftp站点目录的部分信息见:http://www.ncbi.nlm.nih.gov/books/NBK44378/

说明:在/organism_data 和”/shared_data“子目录下的.bcp文件通过使用域界定符“TAB”可以载入大多数电子表格程序。

FTP下的“specs/目录包含dbSNP docsum数据结构的ASN.1XML规格,以及基因型交换格式、基因型源文档、单倍体提交的规格 (.asn,.xsd,.txt,.pdf,.doc,.xls)

 

各种文件格式的详细介绍见:

 

ftp://ftp.ncbi.nih.gov/snp/00readme.txt


 

等位基因的IUPAC代号

 

IUPAC code Meaning
A A
C C
G G
T T
M A or C
R A or G
W A or T
S C or G
Y C or T
K G or T

 

SNP 的命名

关于snp位点的命名其实并不统一,大家在文献中一般用的都是习惯或者说惯用名称。这里只介绍NCBIrs号。 NCBI里对所有提交的snp进行分类考证之后,都会给出一个rs号,也可称作参考snp,并给出snp的具体信息,包括前后序列,位置信息,分布频率等,应该说用这个rs号是比较容易确定搞明白的。 一般写法是这样: dbSNP后面跟featureID. featureID一般是rs/ss后跟7-8位数字, 比如: rs12345678或者dbSNP|rs12345678

dbSNP数据查询

dbSNP现已并入NCBIEntrez系统,能使用与其他Entrez数据库(如PubMed GenBank)相同的查询方式来查询数据。其中可用的搜索词或字见:http://www.ncbi.nlm.nih.gov/snp/snp_schemaChange_b111.htm

 

SNP数据库的数据内容分为两类:一类是提交数据,即观察所得的原始序列变异;另一类是计算内容,即通过对原始提交数据的计算在每个“build”周期中产生的内容。

dbSNP的简单使用
dbSNP的简单使用

dbSNP批量查询方式:使用一组变异IDs(包括RefSNP (rs) IDs, Submitted SNP (ss) IDsLocal SNP IDs)来生成各种SNP报表。

标记间查询方式:如果你对两个STSsequence tagged site ,序列标签位点)标记间的特定基因感兴趣,可以使用这种方式。

位点信息查询方式:现已被Entrez Gene方式所取代。

 

此外还有单记录查询方式、Entrez检索器方式等。

STS:是一段短的DNA序列,通常长度在100500bp,易于识别,仅存在于待研究的染色体或基因组中。任何一个惟一的DNA序列均可作为STS.

NCBISTS的解释见:http://www.ncbi.nlm.nih.gov/projects/genome/probe/doc/TechSTS.shtml

dbSNP的简单使用
dbSNP的简单使用
dbSNP的简单使用

dbSNP的简单使用

dbSNP的简单使用

dbSNP的简单使用

dbSNP数据库的rs_fasta格式解读

dbSNP的简单使用

说明:

gnl: object-type=general

dbSNP: Database name

rs193927898: dbSNP rs#

allelePos=151: Offset of SNP in sequence

totallen=301: Total length of sequence

taxid=3702: taxID

snpClass=1: Variation Class

 

alleles='A/T': List of alleles


 

snpClass取值解释

snpClass=1 True single nucleotide polymorphism
snpClass=2 Insertion deletion polymorphism; deletions represented by '-' in allele string
snpClass=3 Variation has unknown sequence composition but is observed to be heterozygous
snpClass=4 Microsatellite/simple sequence repeat
snpClass=5 Allele sequences defined by name tag instead of raw sequence
snpClass=6 Submission reports invariant region in surveyed sequence

解个体间基因序列差异性的研究,不但对族群遗传学、演化学的研究相当重要,在利用连锁不平衡Linkage Disequilibrium进行复杂性遗传疾病(multiple genes diseases)的相关性研究上也扮演重要的角色

0

阅读 评论 收藏 转载 喜欢 打印举报
  • 评论加载中,请稍候...
发评论

    发评论

    以上网友发言只代表其个人观点,不代表新浪网的观点或立场。

      

    新浪BLOG意见反馈留言板 电话:4006900000 提示音后按1键(按当地市话标准计费) 欢迎批评指正

    新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

    新浪公司 版权所有