加载中…
个人资料
铁汉1990
铁汉1990
  • 博客等级:
  • 博客积分:0
  • 博客访问:1,336,032
  • 关注人气:828
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
相关博文
推荐博文
正文 字体大小:

【T】每日一生信--Fastq格式(phred33/64)

(2014-01-21 16:08:29)
标签:

fastq格式

phred64

fastq32

分类: bioinformatic
本博文更新已整理到新的地址:
  
  Fastq格式里的reads质量得分编码方式有好几种,现在Illumina用的一般是Phred33,但偶尔还会遇到Phred64(旧版本)的。附件里的perl脚本可以把质量得分以数字的形式打印出来,并帮助判断是Fastq32格式还是Phred64。
    
    FASTQ是基于文本的,保存生物序列(通常是核酸序列)和其测序质量信息的标准格式。其序列以及质量信息都是使用一个ASCII字符标示,最初由Sanger开发,目的是将FASTA序列与质量数据放到一起,目前已经成为高通量测序结果的事实标准。FASTQ格式的序列一般都包含有四行,第一行由'@'开始,后面跟着序列的描述信息,这点跟FASTA格式是一样的。第二行是序列。第三行由'+'开始,后面也可以跟着序列的描述信息。第四行是第二行序列的质量评价(quality values,注:应该是测序的质量评价),字符数跟第二行的序列是相等的。
例子:
@FCC0U6BACXX:6:1101:1418:2067#CTAGTTAT/1
CCGGTAAAGGATCGTATCCTGCGTGCACGATGGCGGTATTTGCGCTGGATACACCCATCCCAATATCAGCTGCTTTATCGATCAACAAGA
+
abbecceegggggiihhhfgihiifhhiihiiiihiZafgffhihg]aabdedddcab^ac`bcbb_]`bcccR]SSYSWQ[JT]`_^X[
6 flowcell lane
1101 tile number within the flowcell lane
1418 ‘x’-coordinate of the cluster within the tile
2067 ‘y’-coordinate of the cluster within the tile
#CTAGTTAT index number for a multiplexed sample (0 for no indexing)
/1 the member of a pair, /1 or /2 (paired-end or mate-pair reads only)
关于质量编码格式
质量评分指的是一个碱基的错误概率的对数值。其最初在Phred拼接软件中定义与使用,其后在许多软件中得到使用。其质量得分与错误概率的对应关系见下表:
Phred quality scores are logarithmically linked to error probabilities
PHRED QUALITY SCORE PROBABILITY OF INCORRECT BASE CALL BASE CALL ACCURACY
10                       1 in 10                           90 %
20                       1 in 100                           99 %
30                       1 in 1000                           99.9 %
40                       1 in 10000                   99.99 %
50                       1 in 100000                   99.999 %
Phred quality scores Q are defined as a property which is logarithmically related to the base-calling error probabilities P.
Q=-10log10P
对于每个碱基的质量编码标示,不同的软件采用不同的方案,目前有5种方案:
Sanger,Phred quality score,值的范围从0到92,对应的ASCII码从33到126,但是对于测序数据(raw read data)质量得分通常小于60,序列拼接或者mapping可能用到更大的分数。
Solexa/Illumina 1.0, Solexa/Illumina quality score,值的范围从-5到63,对应的ASCII码从59到126,对于测序数据,得分一般在-5到40之间;
Illumina 1.3+,Phred quality score,值的范围从0到62对应的ASCII码从64到126,低于测序数据,得分在0到40之间;
Illumina 1.5+,Phred quality score,但是0到2作为另外的标示,详见http://solexaqa.sourceforge.net/questions.htm#illumina
Illumina 1.8+

最重要的是通过下面的这个脚本,我知道了我的测序采用的是phred64这个编码。


参考资料:
jiewencai的个人博客  http://blog.sciencenet.cn/blog-630246-709629.html
博耘生物             http://boyun.sh.cn/bio/?p=1901
维基百科             http://en.wikipedia.org/wiki/FASTQ_format

0

阅读 评论 收藏 转载 喜欢 打印举报/Report
  • 评论加载中,请稍候...
发评论

    发评论

    以上网友发言只代表其个人观点,不代表新浪网的观点或立场。

      

    新浪BLOG意见反馈留言板 欢迎批评指正

    新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

    新浪公司 版权所有