不同测序方法序列格式及质量_guest_w

http://blog.sina.com.cn/u/1658559257

首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

不同测序方法序列格式及质量

(2013-11-09 21:58:13)

1. 不同测序平台原始数据的格式略有不同，454 测序平台的原始数据格式一般

为 FASTA 或者 FASTQ 格式，Illumina/Solexa 平台一般为 FASTQ 格式，而 SOLiD

平台由于其测序结果中一般包含了信号峰值，所以一般不为通用的 FASTA 或者

FASTQ 格式，而是 CSFASTA 格式以及 QV.qual 的质量文件，但是可以通过程序

脚本将其转换成通用格式，转换后的 fastq 格式虽然通用，但是其准确性比原始

格式略差。

2. FASTQ 格式以测序读段（read）为单位

进行存储，每条 read 占四行，其中第一行和第三行由文件识别标志和读段名（read

ID）组成（第一行以“@”开头，第三行则以“+”开头；有时候第三行中的 ID

号可以省略，但是“+”号不能省略），第二行为碱基序列，第四行为对应的测序

质量分数。如下，

@HWI-ST507:4:75:4291:2239#0/1

AAGCTTGTTGAAGGCTACCAAAAACGATTACAAGCTGTAATTTCTGCTAAAG

+HWI-ST507:4:75:4291:2239#0/1

ggggegegfggggdgggg_ggcg\gfdYadddea]`cc_cc`c\[ed\^`]]

对于 FASTQ 中的每一条 read 来说，都有一个唯一的标识名称，如上面第一

行的 HWI-ST507:4:75:4291:2239#0/1，其中 HWI-ST507 是测序仪的唯一标识号，

4 表示这批测序是在测序仪中第四个道进行的，75 表示这批测序数据每个 read

都是 75bp 长，4291 和 2239 都是测序仪中的坐标数，#0 表示了在多样本测序时

的索引号，而 0 就表示是单样本，/1 是每对 paired-end 或 mate-pair 的 reads 中的

第一个 read。当然标识名称的组成并没有固定的限制，在新的测序仪或者某些实

验室里，都会有一些特定的名称，比如 NCBI 的 SRA（Sequence Read Archive）

数据库中，每个名称上都会加入 SRA 号等标记

对于每一条序列来说，每个碱基都有其对应的测序质量。质量值 Q 是相应

碱基识别不正确的概率 p 的一个整数映射。传统的标准 Sanger 测序质量值是基

于碱基识别可靠性的评估，通常称为 Phred 质量分数，其计算公式如下：

Phred 质量分数与错误概率成对数相关，如表 3.1 所示。

表 3.1 Phred 质量分数与错误概率间的相关性

Table 3.1 the correlation between Phred quality scores and error probabilities

Phred 质量分数不正确的碱基调用的概

率

碱基调用准确率

10 1 in 10 90%

20 1 in 100 99%

30 1 in 1000 99.9%

40 1 in 10000 99.99%

50 1 in 100000 99.999%

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report

前一篇：[转载]转贴：SAS中format和informat的区别

后一篇：转：SAMtools: Primer / Tutorial（二代测序数据分析入门）

新浪BLOG意见反馈留言板　欢迎批评指正