如何理解PacBio的准确度?(测序偏好性)

标签:
pacbio准确度测序偏好性 |
分类: 技术文章 |
第二讲:
2. Sequence Context Bias(测序偏好性)
以上的讨论还仅仅限于那些容易被测到的DNA序列。事实上,许多测序方法由于自身技术及原理的局限性,对于某些序列或者极端的碱基组成无能为力,所以对于这些区域,准确率是0%。
尤其对于极端AT-rich或GC-rich的DNA,高度重复序列,长同型核苷酸延伸(long homonucleotide stretches)等区域,许多测序系统完全测不到或者测序质量不好。同样,回文序列在这些测序平台中也无法被测到,因为回文序列DNA在样本制备的扩增阶段就已经丢失了6。基因组上这些区域往往缺乏coverage,得到的测序结果不完整,导致基因组拼接时contigs片段化严重,有时甚至会丢失掉10%以上的基因组7,8,这无疑妨碍了全面鉴定DNA序列以及对于完整基因组的构建。
SMRT测序并不会表现出这种序列偏好性,在整个基因组的表现都非常稳定,即便是那些被认为非常难测的区域。这一优势可被用于close那些其他测序平台上产生的gaps。一个极端的例子可以用来证明SMRT测序的无偏好性,那就是对数千个碱基组成的100%GC含量区域的测序:CGG三核苷酸的重复会导致Fragile X 综合征10(见图5)。同样,因为SMRT技术在样本制备时无需扩增,也不会收到回文序列的影响。