【NGS原创系列一】测序技术浅谈

标签:
transgen全式金全式金生物ngsngs测序 |
分类: 生物实验相关 |
众所周知,测序是测生物体的遗传信息,而遗传信息对于研究生物体基因组的复杂性和多样性十分重要,因此测序技术的快速发展对于我们研究生物体的遗传信息有着十分重要的意义。本期就为大家简单介绍一下测序技术的发展。
平时对菌液、质粒和PCR产物的测序,应用到的就是所谓的一代测序。第一代DNA测序技术,又称之为“Sanger”法测序,或者是”双脱氧法“测序。这是由生物化学家Frederick
天然DNA的基本组成单位是单脱氧核苷酸(dNTP,deoxynucleotides),在其糖基的5‘位和3’位,各有一个羟基。其中5‘位的羟基是用来连接上游的磷酸基团,而3‘位的羟基是用来连接下游的磷酸基团,这样不断重复相连,就形成了DNA的一条骨架链。而Sanger的方法则是利用化学合成的办法合成出3’位无羟基的核苷酸,称之为双脱氧核苷酸(ddNTP),在DNA的合成过程中无法与下一个dNTP形成磷酸二酯键,因此DNA链的聚合反应也就终止,无法继续延伸;在DNA链聚合过程当中,通过掺有带有放射性同位素标记的ddNTP的dNTP进行反应,得到一系列不同长短DNA片段,通过凝胶电泳和放射自显影后可以根据电泳带的位置来确定待测分子的DNA序列。一代测序已发展到瓶颈,目前使用的多为ABI的毛细管系统测序仪。一代测序技术虽然速度快,但测序长度有限,只有1000bp左右而且一次只能测一条单一的序列,通量低无法满足我们对物种全基因组的测序。
技术原理如图1:
图1. Sanger测序原理
高通量测序也称之为二代测序技术。随着生命科学的发展,我们需要分析物种的所有序列信息,为了克服一代测序技术的缺陷,产生了二代测序技术。第二代测序技术的核心思想是边合成边测序(Sequencing by Synthesis),即通过捕捉新合成的末端的标记来确定DNA的序列。在Sanger等测序方法的基础上,通过技术创新,用不同颜色的荧光标记四种不同的dNTP,当DNA聚合酶合成互补链时,每添加一种dNTP就会释放出不同的荧光,根据捕捉的荧光信号并经过特定的计算机软件处理,从而获得待测DNA的序列信息。二代测序技术主要有4家公司:罗氏的454技术,illumina的Hiseq和Solexa技术、ABI的Solid技术以及华大的DNB技术,随后会对不同的技术做详细介绍。
二代测序技术的诞生大大提高了测序速度,同时还大幅低降低了成本,并且保持了高准确性。图2是对第一代和第二代测序技术测序成本作了一个简单的比较,由图可知二代测序技术的出现,测序成本实现了断崖式下降。
illumina
目前illumina的测序仪在全球的占有量达75%以上,主要是以Hiseq系列为主。其采用的是边合成边测序的方法[1,2],其测序过程主要分为以下4个步骤,如图3。
(1)待测DNA文库的构建
将待测序的DNA分子用超声波打碎成200-500bp长的序列片段,在这些片段的两端加上不同的接头,构建出DNA文库。
(2)测序流动槽(Flowcell)
Flowcell是测序的核心反应容器,所有的测序过程都在这里发生,它是用于吸附流动DNA片段的槽道。当构建好的文库DNA在通过Flowcell时会随机附着在Flowcell表面的channel上。每个Flowcell有8个lane,每个lane的表面都附有很多接头,这些接头能和建库过程中加在DNA片段两端的接头相互配对,这就是为什么flowcell能吸附建库后的DNA的原因,并能支持DNA在其表面进行桥式PCR的扩增,而且这些lane之间不会互相影响。
(3)桥式PCR扩增和变性
桥式PCR的模板为Flowcell表面所固定的接头,进行桥形扩增,如图3-3所示。通过多次的扩增和变性循环,每个DNA片段最终都将在各自的位置上集中成束,每一个束都含有单个DNA模板的很多分拷贝,进行这一过程的目的在于实现将碱基的信号强度放大,以达到测序所需的信号要求。
(4)测序
测序方法采用边合成边测序的方法。在反应体系中同时添加DNA聚合酶、接头引物和带有碱基特异荧光标记的4中dNTP。这些荧光标记的dNTP可逆合成终止,是illumina测序的最核心技术。在dNTP被添加到合成链上后,所有未使用的游离dNTP和DNA聚合酶会被洗脱掉。接着,再加入激发荧光所需的缓冲液,用激光激发荧光信号,并有光学设备完成荧光信号的记录,最后利用计算机分析将光学信号转化为测序碱基。荧光信号记录完成后,再加入巯基试剂切掉荧光基团和dNTP 3’-OH保护基团,起到一石二鸟的作用,使这个荧光基团不影响下一轮的测序反应。
Roche 454
Roche 454与illumina测序原理不同,它的主要测序原理如图4abc。
(1)待测DNA文库制备
该技术是利用喷雾法将待测的DNA打断为300-800bp的小片段,在片段两端加上不同的接头,或将待测DNA变性后用杂交引物进行PCR扩增,连接载体,构建单链DNA文库(图4a)。
(2) Emulsion PCR (乳液PCR,其实是一个注水到油的独特过程)
乳液PCR最大的特点是可以形成数目庞大的独立反应空间以进行DNA扩增。其关键技术是将这些单链DNA结合在水油包被的直径约28um的磁珠上,并在其上面孵育、退火,基本过程是在PCR反应前,将包含PCR所有反应成分的水溶液注入到高速旋转的矿物油表面,水溶液瞬间形成无数个被矿物油包裹的小水滴。这些小水滴就构成了独立的PCR反应空间。理想状态下,每个小水滴只含一个DNA模板和一个磁珠。这些被小水滴包被的磁珠表面含有与接头互补的DNA序列,因此这些单链DNA序列能够特异地结合在磁珠上。同时孵育体系中含有PCR反应试剂,所以保证了每个与磁珠结合的小片段都能独立进行PCR扩增,并且扩增产物仍可以结合到磁珠上。当反应完成后,可以破坏孵育体系并将带有DNA的磁珠富集下来。进过扩增,每个小片段都将被扩增约100万倍,从而达到下一步测序所要求的DNA量。
(3) 焦磷酸测序
该技术测序方法采用焦磷酸测序法,测序前需对带有DNA的磁珠用一种聚合酶和单链结合蛋白进行预处理,然后将磁珠放于带有直径约为44um的小孔的PTP平板上,平板上的每个小孔仅能容纳一个磁珠,将磁珠固定在小孔里,以便检测后续的测序反应过程。测序反应以磁珠上大量扩增出的单链DNA为模板,每次反应加入一种dNTP进行合成反应。如dNTP能与待测序列配对,则会在合成后释放焦磷酸基团。释放的焦磷酸基团会与反应体系中的ATP硫酸化学酶反应生成ATP。生成的ATP和荧光素酶共同氧化使测序反应中的荧光素分子并发出荧光,同时由PTP板另一侧的CCD照相机记录,最后通过计算机进行光信号处理而获得最终的测序结果。由于每一种dNTP在反应中产生的荧光颜色不同,因此可以根据荧光的颜色来判断被测分子的序列。反应结束后,游离的dNTP会在双磷酸酶的作用下降解ATP,从而导致荧光淬灭,以便使测序反应进入下一个循环。由于454测序技术中,每个测序反应都在PTP板上独立的小孔中进行,因而能大大降低相互间的干扰和测序偏差。该技术的优点是读长较长,平均读长可达400bp,缺点是无法准确测量同聚物的长度,如当序列中存在类似于PolyA的情况时,测序反应会一次加入多个T,而所加入的T的个数只能通过荧光强度推测获得,这就有可能导致结果不准确。由于这一原因,454技术会在测序过程中引入插入和缺失的测序错误。
Solid技术
Solid测序技术基于连接酶法,是利用DNA连接酶在连接过程之中测序(图5)[1,2]。其原理如下:
(1)DNA文库构建
将待测序的DNA打断后,在片段两端加上测序接头,连接载体,构建单链DNA文库。
(2)Emulsion PCR
Emulsion PCR的微珠只有1μm,在扩增的同时对扩增产物的3’端进行修饰。3’修饰的微珠会被沉积在一块玻片上。在微珠上样的过程中,沉积小室将每张玻片分成1个、4个或8个测序区域(图5-a)。Solid系统最大的优点就是每张玻片能容纳比454更高密度的微珠,在同一系统中轻松实现更高的通量。
(3)连接酶测序
该测序技术测序时不用DNA聚合酶,而是用连接酶。Solid连接反应的底物是8碱基单链荧光探针混合物,这里将其简单表示为:3’-XXnnnzzz-5’。连接反应中,这些探针按照碱基互补规则与单链DNA模板链配对。探针的5’末端分别标记了CY5、Texas Red、CY3、6-FAM这4种颜色的荧光染料(图5-a)。这个8碱基单链荧光探针中,第1和第2位碱基(XX)上的碱基是确定的,并根据种类的不同在6-8位(zzz)上加上了不同的荧光标记。这是Solid的独特测序法,两个碱基确定一个荧光信号,相当于一次能决定两个碱基。这种测序方法也称之为两碱基测序法。当荧光探针能够与DNA模板链配对而连接上时,就会发出代表第1,2位碱基的荧光信号,图5-a和图5-b中的比色版所表示的是第1,2位碱基的不同组合与荧光颜色的关系。在记录下荧光信号后,通过化学方法在第5和第6位碱基之间进行切割,这样就能移除荧光信号,以便进行下一个位置的测序。不过值得注意的是,通过这种测序方法,每次测序的位置都相差5位。即第一次是第1、2位,第二次是第6、7位……在测到末尾后,要将新合成的链变性,洗脱。接着用引物n-1进行第二轮测序。引物n-1与引物n的区别是,二者在与接头配对的位置上相差一个碱基(图5-a.)。也即是,通过引物n-1在引物n的基础上将测序位置往3’端移动一个碱基位置,因而就能测定第0、1位和第5、6位……第二轮测序完成,依此类推,直至第五轮测序,最终可以完成所有位置的碱基测序,并且每个位置的碱基均被检测了两次。该技术的读长在2×50bp,后续序列拼接同样比较复杂。由于双次检测,这一技术的原始测序准确性高达99.94%,而15x覆盖率时的准确性更是达到了99.999%,应该说是目前第二代测序技术中准确性最高的了。但在荧光解码阶段,鉴于其是双碱基确定一个荧光信号,因而一旦发生错误就容易产生连锁的解码错误。
华大MGI测序
基因组DNA首先经过片段化处理,再加上接头序列,并环化形成单链环状DNA,随后使用的滚环扩增技术(Rolling circle amplification, RCA)可将单链环状DNA扩增2-3个数量级,所产生的扩增产物称为DNA纳米球(如图6.1,DNA nanoball, DNB),最终纳米球经过DNB装载技术固定在阵列化的硅芯片上。
Pattern
array技术:华大基因测序芯片的规则阵列(Pattern
cPAS技术(优化的联合探针锚定聚合技术):首先DNA分子锚和荧光探针在DNB上进行聚合,随后高分辨率成像系统对光信号进行采集,光信号经过数字化处理后即可获得待测序列。生化反应时间缩短到60秒完成。通过Sub-pixelRegistration算法,大大提高了碱基识别的准确度;并通过Multi-threadparallel
compression算法以及对执行效率的优化,实现了图像处理和碱基识别的实时化(如图6.3)。
最后数据的收集与分析(如图6.4)。根据需求,完成不同的应用。包括:临床和科研。临床方面将主要面向生育健康、肿瘤基因检测、病原微生物快速检测等应用,在科研方面将能够实现全基因组测序、转录组测序、表观基因组测序、宏基因组测序、分子育种测序等不同应用。
其他测序技术
目前还有一种基于半导体芯片的新一代革命性测序技术—Ion Torrent。Ion torrent测序技术由赛默飞公司在2010推出问世,其摒弃了测序过程中惯用的酶促生化反应,利用半导体芯片进行基因序列。测序机从PGM系统,proton系统,乃至升级今日的S5系统,测序通量也不断提高。
Ion torrent测序平台的最大的优点就是测序时间短,标准的测序时间仅为2-3小时,弥补了高通量测序周期长的缺陷。Ion Torrent的核心技术是使用半导体技术在化学和数字信息之间建立直接的联系。测序反应仅是在一张半导体芯片上实现的。如下图:
图7 测序芯片
芯片上布满成千上亿个小孔,每一个小孔中的PH电极,当A、C、G、T四种dNTP的溶液,分别地、依次地流过芯片的表面,每个dNTP分子有3个磷酸基团,当dNTP被聚合酶结合到DNA链上时,会掉下来的一分子的焦磷酸,1个焦磷酸分子会被酶再进一步分解成2个磷酸分子,这样,在测序小孔的微环境中,就会多出两个酸性分子,一个珠子上有几千、几百条DNA链,每次发生聚合反应,就会多出几千、几百个酸分子。这样,小孔微环境的pH值就会短暂地下降,小孔的pH变化不断的被记录下来,并将信号值传给计算机,从而实现碱基的测序分析。
图8 Ion Torrent测序原理图
Ion Torrent作为新一代的测序技术之一, 由于硬件设备无需光学检测和扫描系统,并且使用天然核苷酸和聚合酶、无需焦磷酸酶化学级联,无需标记荧光染料和化学发光的配套试剂,因此测序成本低,其应用范围涵盖Sanger方法和已有高通量测序技术的应用,如基因组DNA序列测定(微生物基因组测序、线粒体测序、靶向测序)、DNA扩增子测序等,同时在体细胞突变测序、 De novo测序、小RNA和基因表达研究、 ChIP-seq、农业SNP应用等方面有着不少的应用范围。但是 Ion Torrent测序平台一直有一个Homopolymer的问题。所谓Homopolymer问题,就是测序仪在测到一连串相同的碱基时,就读不准到底有几个碱基。比如说,有一串5个A,测序仪在读到这里的时侯,读到一个强的A信号,但是仪器在判断,这个信号到底是5个A,还是4个A、或者是6个A的时侯,有可能会判断错误。
第三代测序也是指单分子测序技术,DNA在测序时,无需经过PCR扩增对每一条DNA分子进行单独测序,这就克服了二代测序需要进行PCR扩增引入的错配等问题。其基本原理是:DNA聚合酶和模板结合,4色荧光标记
参考文献
[1] Mardis, E. R. Next-generation DNA sequencing
methods.
[2] Metzker, M. L. Sequencing technologies-the next generation.
Nature reviews. Genetics
[3] Drmanac, R et al. (2010) Human Genome Sequencing Using Unchained Base Reads on Self-Assembling DNA Nanoarrays. Science 327, 78-81