NCBI中的fasta格式及其常用格式
(2017-02-21 17:04:04)
标签:
基因 |
分类: 生物信息学 |
作为最简单的格式,一个DNA序列可以表示为一个带有一些标记的核苷酸字符串。这里是一个以FASTA(或Pearson格式)文件表示的核苷酸序列数据
所有来源于NCBI的序列都有一个gi号“gi|gi_identifier”,gi号类似与数据库中的流水号,由数字组成,具有绝对唯一性。一条核酸或者蛋白质改变了,将赋予一个新的gi号(这时序列的接收号可能不变)。
*.asn = ASN. file, *.faa = FASTA Amino Acid file *.ffn = FASTA nucleotide coding regions file其内容是物种内所有基因的DNA序列信息,fasta格式 *.fna = FASTA Nucleic Acid file其内容是使用fasta格式表示的物种全序列DNA信息 *.gbk = GenBank flat file format,GenBank格式的物种详细注释信息,包括相关物种的名称,访问号,参考文献信息,以及该物种的对应的基因和非基因片段的详细注释等信息。 *.gbs = GenBank summary file format (CONTIG),,GenBank总结文件格式。 *.ptt = Protein Table,其内容是所有能翻译成蛋白质的基因的简单注释信息 *.tab = Table to assemble genome,tabular格式的文件 *.val = ASN.1 binary format,除*.val是个二进制文件,其他都是文本文件,相当于*.txt文件! *.tar.Z = unix tar and compressed files (not all files are compressed),linux下的压缩文件。 |