加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

转录组平时最常见的几个问题

(2017-11-16 17:39:45)
标签:

转录组测序

 使用Solexa进行转录组测序时,样本RNA如何进行片段化处理? cDNA插入片段长度的选择?

  答:Solexa转录组测序文库构建时采用专用的打断BufferRNA样本进行片段化处理,这种方法充分利用RNA对二价阳离子的敏感性,具有稳定性好的优点,通过这种方法打断能得到更加均匀的覆盖率。mRNA-seq可以既可以采用单端测序(single read) 还可以采用双端测序( paired end),对于单端测序来说片段长度150-200bp是理想的长度范围,对于双端测序来说片段长度推荐300-500bp,由于两端加入了Solexa的锚定序列和引物序列,样品准备完成后所获得的产物长度比插入的cDNA长度要长。

  文库准备过程中,反转录引物的选择?

  答:在进行cDNA合成过程中,经常用到的有两种引物:oligo dT引物和随机引物。

  在RNA反转录过程中使用oligo dT引物进行扩增可以保证扩增产物包括mRNA3'末端,减少rRNA的干扰,但是采用oligo dT 引物扩增有一个问题,就是扩增片段的长度偏短和扩增产物所包含的信息量偏向3’端的问题,之所以有长度偏短,一方面与RNA完整性有关,但最重要的限制在于逆转录酶的延伸能力。 用oligo dT 引物扩增出来的片段长度短,虽然都有mRNA3'端,但是序列信息多位于3'-UTR附近,若扩增序列太短,则有用信息很少,不利于序列的识别和分析。

  使用Random primer扩增,虽然扩增偏短长度也很短, 但是由于它的逆转录并不一定在mRNA的末端起始,而是在随机位置起始,所以它的扩增片段带有更多CDS的信息,但是如果是用总RNA逆转录的话,有可能会受到rRNA的干扰。

  采用Solexa进行转录组测序,测序文库准备过程中,由于实验之前已经采用oligo dT微磁珠进行纯化,而且mRNA已经进行了片段化处理后才进行反转录,因此反转录只能采用随机引物进行cDNA的合成,如果采用oligo dT进行扩增,只能得到mRNA3'端序列,无法得到完整的mRNA序列。

  Solexa进行转录组测序,测序文库的制备方法及质控标准?

  答:首先会样本进行质量检测,检测合格后,对样本进行测序前处理,构建测序文库,构建步骤为:(1)首先利用oligo dT微珠纯化mRNA;(2)将纯化得到的mRNA进行片段化处理;(3)利用逆转录酶反转录合成cDNA第一链;(4)cDNA第一链为模板合成双链cDNA;(5)对双链cDNA进行末端修复并在3’末端加’A”;(6)DNA片段的两端连接上特定的测序接头;(7)割胶纯化连接好的cDNA片段(一般回收200-500bp之间的片段);(8)利用高保真聚合酶扩增测序文库;(9)检测测序文库。对于测序文库,需要进行质量控制,一般通过 Aligent Technologies 2100分析仪和电泳观察两种方法检测测序文库的大小,纯度及浓度。

  转录组测序结果的影响因素?

  答:RNA的降解严重影响测序的质量,RNA降解后,加入poly-A后无法捕获纯化mRNA,因此,随机引物反转录无法得到全部的cDNA,导致测序结果出现明显的3‘-5’-偏向。文库中的poly-A多聚物的存在会对测序信号产生干扰,影响测序结果的准确性;同时由于转录组中转录本的丰度不一致,实验前需要对样本进行均一化处理,否则高丰度的表达基因会掩盖低丰度表达基因,导致寻找新基因失败或者是获得大量无意义的重复序列。

  转录组测序需要多大的测序量才能得到有意义的结果?

  答:转录组测序前,需要对物种转录组的大小进行评估,评估方法如下:

  (1)对于有reference genome的物种,可以分析基因组信息,统计编码基因的个数,及其碱基数,从而估计物种转录组的大小,另外可以查询相关或相近物种转录组研究的文献,作为参考。

  (2)对于无reference genome的物种则只能参考相近物种的转录组大小。

  由于转录组需要进行表达量的分析,因此在转录组测序中不推荐覆盖度,在进行不同基因和不同实验间的基因表达差异分析时,人们提出了RPMRPKM的概念。RPM(Reads Per Million reads)即每百万reads中来自于某基因的reads数,考虑了测序深度对读段计数的影响。RPKM(Reads Per Kilo bases per Million reads)是每百万reads中来自于某基因每千碱基长度的reads数。因此,在确定转录组的测序量时,最好以产生的读长数目做依据,参照转录组大小,估计需要的读长数目,来确定转录组需要的测序量。

  如何处理转录组测序中存在的系统噪音和偏差?

  答:虽然深度测序技术的准确性较以前的技术有了很大提高,但仍然存在错误和噪声。比如内含子区内有一些不连续的reads,很可能由系统噪声造成,如样品污染、测序错误和不恰当的read定位策略等。另外,外显子区域内的read信号分布有时也很不均匀。有文献报道,序列组成尤其是GC含量、RNA二级结构等也有可能是导致read不均匀分布的原因。这些噪声和分布偏好将影响新基因的识别和对剪接异构体形式和表达水平推断。

  合理地建模RNA-seq数据中的系统噪声和偏好是解决上述问题最有效的办法。基本的思路可以是:首先根据实验原理寻找可能产生系统噪音或偏差的因素,并尽可能将这些因素转化成可量化的特征,如序列特征、二级结构等;然后,将用实验数据对这些特征做统计分析,构造和训练模型,用模型来对数据进行校正。需要注意的是,某些偏好是由当前的测序技术和分析方法共同造成的,难以完全消除。在这种情况下,后续处理和解释时需要充分意识到这种偏好可能对生物学结论带来的影响,必要时通过补充其他实验来验证和修正通过高通量测序得到的生物结论。

转录组测序:https://www.genewiz.com.cn/Public/Services/Next-Generation-Sequencing/RNA-Seq

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有