加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

不同测序方法序列格式及质量

(2013-11-09 21:58:13)
1. 不同测序平台原始数据的格式略有不同,454 测序平台的原始数据格式一般
为 FASTA 或者 FASTQ 格式,Illumina/Solexa 平台一般为 FASTQ 格式,而 SOLiD
平台由于其测序结果中一般包含了信号峰值,所以一般不为通用的 FASTA 或者
FASTQ 格式,而是 CSFASTA 格式以及 QV.qual 的质量文件,但是可以通过程序
脚本将其转换成通用格式,转换后的 fastq 格式虽然通用,但是其准确性比原始
格式略差。
2. FASTQ 格式以测序读段(read)为单位
进行存储,每条 read 占四行,其中第一行和第三行由文件识别标志和读段名(read
ID)组成(第一行以“@”开头,第三行则以“+”开头;有时候第三行中的 ID
号可以省略,但是“+”号不能省略),第二行为碱基序列,第四行为对应的测序
质量分数。如下,
@HWI-ST507:4:75:4291:2239#0/1
AAGCTTGTTGAAGGCTACCAAAAACGATTACAAGCTGTAATTTCTGCTAAAG
+HWI-ST507:4:75:4291:2239#0/1
ggggegegfggggdgggg_ggcg\gfdYadddea]`cc_cc`c\[ed\^`]]
对于 FASTQ 中的每一条 read 来说,都有一个唯一的标识名称,如上面第一
行的 HWI-ST507:4:75:4291:2239#0/1,其中 HWI-ST507 是测序仪的唯一标识号,
4 表示这批测序是在测序仪中第四个道进行的,75 表示这批测序数据每个 read
都是 75bp 长,4291 和 2239 都是测序仪中的坐标数,#0 表示了在多样本测序时
的索引号,而 0 就表示是单样本,/1 是每对 paired-end 或 mate-pair 的 reads 中的
第一个 read。当然标识名称的组成并没有固定的限制,在新的测序仪或者某些实
验室里,都会有一些特定的名称,比如 NCBI 的 SRA(Sequence Read Archive)
数据库中,每个名称上都会加入 SRA 号等标记

对于每一条序列来说,每个碱基都有其对应的测序质量。质量值 Q 是相应
碱基识别不正确的概率 p 的一个整数映射。传统的标准 Sanger 测序质量值是基
于碱基识别可靠性的评估,通常称为 Phred 质量分数,其计算公式如下:
Phred 质量分数与错误概率成对数相关,如表 3.1 所示。
表 3.1 Phred 质量分数与错误概率间的相关性
Table 3.1 the correlation between Phred quality scores and error probabilities
Phred 质量分数 不正确的碱基调用的概
碱基调用准确率
10 1 in 10 90%
20 1 in 100 99%
30 1 in 1000 99.9%
40 1 in 10000 99.99%
50 1 in 100000 99.999%

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有