加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

NCBI中的fasta格式及其常用格式

(2017-02-21 17:04:04)
标签:

基因

分类: 生物信息学
作为最简单的格式,一个DNA序列可以表示为一个带有一些标记的核苷酸字符串。这里是一个以FASTA(或Pearson格式)文件表示的核苷酸序列数据
       Fasta格式首先以大于号“>”开头,接着是序列的标识符gi号,然后是序列的描述信息。换行后是序列信息,序列中允许空格,换行,空行,直到下一个大于号,表示该序列的结束。
所有来源于NCBI的序列都有一个gi号“gi|gi_identifier”,gi号类似与数据库中的流水号,由数字组成,具有绝对唯一性。一条核酸或者蛋白质改变了,将赋予一个新的gi号(这时序列的接收号可能不变)。

 

*.asn = ASN. file,
*.faa = FASTA Amino Acid file  其内容是物种内所有基因对应的fasta格式的蛋白质序列信息
*.ffn = FASTA nucleotide coding regions file其内容是物种内所有基因的DNA序列信息,fasta格式
*.fna = FASTA Nucleic Acid file其内容是使用fasta格式表示的物种全序列DNA信息
*.gbk = GenBank flat file format,GenBank格式的物种详细注释信息,包括相关物种的名称,访问号,参考文献信息,以及该物种的对应的基因和非基因片段的详细注释等信息。
*.gbs = GenBank summary file format (CONTIG),,GenBank总结文件格式。
*.ptt = Protein Table,其内容是所有能翻译成蛋白质的基因的简单注释信息
*.tab = Table to assemble genome,tabular格式的文件
*.val = ASN.1 binary format,除*.val是个二进制文件,其他都是文本文件,相当于*.txt文件!
*.tar.Z = unix tar and compressed files (not all files are compressed),linux下的压缩文件。

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有