不同测序方法序列格式及质量
(2013-11-09 21:58:13)1. 不同测序平台原始数据的格式略有不同,454
测序平台的原始数据格式一般
为 FASTA 或者 FASTQ 格式,Illumina/Solexa
平台一般为 FASTQ 格式,而 SOLiD
平台由于其测序结果中一般包含了信号峰值,所以一般不为通用的 FASTA
或者
FASTQ 格式,而是 CSFASTA 格式以及 QV.qual
的质量文件,但是可以通过程序
脚本将其转换成通用格式,转换后的 fastq
格式虽然通用,但是其准确性比原始
格式略差。
2. FASTQ 格式以测序读段(read)为单位
进行存储,每条 read
占四行,其中第一行和第三行由文件识别标志和读段名(read
ID)组成(第一行以“@”开头,第三行则以“+”开头;有时候第三行中的
ID
号可以省略,但是“+”号不能省略),第二行为碱基序列,第四行为对应的测序
质量分数。如下,
@HWI-ST507:4:75:4291:2239#0/1
AAGCTTGTTGAAGGCTACCAAAAACGATTACAAGCTGTAATTTCTGCTAAAG
+HWI-ST507:4:75:4291:2239#0/1
ggggegegfggggdgggg_ggcg\gfdYadddea]`cc_cc`c\[ed\^`]]
对于 FASTQ 中的每一条 read
来说,都有一个唯一的标识名称,如上面第一
行的 HWI-ST507:4:75:4291:2239#0/1,其中
HWI-ST507 是测序仪的唯一标识号,
4 表示这批测序是在测序仪中第四个道进行的,75 表示这批测序数据每个
read
都是 75bp 长,4291 和 2239 都是测序仪中的坐标数,#0
表示了在多样本测序时
的索引号,而 0 就表示是单样本,/1 是每对 paired-end 或
mate-pair 的 reads 中的
第一个
read。当然标识名称的组成并没有固定的限制,在新的测序仪或者某些实
验室里,都会有一些特定的名称,比如 NCBI 的
SRA(Sequence Read Archive)
数据库中,每个名称上都会加入 SRA 号等标记
对于每一条序列来说,每个碱基都有其对应的测序质量。质量值 Q
是相应
碱基识别不正确的概率 p 的一个整数映射。传统的标准 Sanger
测序质量值是基
于碱基识别可靠性的评估,通常称为 Phred
质量分数,其计算公式如下:
Phred 质量分数与错误概率成对数相关,如表 3.1 所示。
表 3.1 Phred 质量分数与错误概率间的相关性
Table 3.1 the correlation between
Phred quality scores and error probabilities
Phred 质量分数 不正确的碱基调用的概
率
碱基调用准确率
10 1 in 10 90%
20 1 in 100 99%
30 1 in 1000 99.9%
40 1 in 10000 99.99%
50 1 in 100000 99.999%