加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

全长转录组测序要点汇编II  ——数据质控篇

(2017-03-01 11:28:30)
标签:

杂谈

​以PacBio公司的SMRT单分子实时测序技术(Single molecule real-time sequencing)为代表的三代测序技术,通过其独有的环形一致性测序模式(Circular-consensus sequence,CCS),极大提高单碱基测序的准确率,远超Illumina等二代测序技术。与传统转录组测序项目相比,利用PacBio平台的全长转录组测序技术可以直接获得mRNA的全长,保证了mRNA序列的精确性。近期我们将陆续推出全长转录组测序技术相关文章,供讨论和交流。我们在上一期向大家介绍了全长转录组测序的技术原理和实验流程附链接,本期将为大家介绍全长转录组测序分析流程中的数据整理和质控。

分析流程

首先从下机数据中提取Reads of Insert(RoI)序列,根据Reads of Insert序列是否含3’ 端引物和5’端引物以及是否嵌合对Reads of Insert进行分类,对全长序列进行去冗余聚类,并用非全长序列对其进行校正。接着将非冗余序列比对到该物种的参考基因组上,在此基础上完成融合基因分析,并进行比对结果整理,根据比对结果与参考基因组的注释信息对Isoform进行功能注释,并完成基因结构优化。另外,我们还进行了转录本结构分析,包括可变剪接分析, UTR区域注释,cSNP 和InDel 分析等。

http://wx2/large/a5d4da69gy1fd76gvcs43j20q90q90u7.jpg ——数据质控篇" TITLE="全长转录组测序要点汇编II  ——数据质控篇" />


数据整理和质控

每个原始序列可以分割成一个或多个子序列(Subread,Subread 是DNA聚合酶以一条模板链经过一个Passes合成的,不包括Adapter序列),即每个零模波导孔中会有多个Subreads。每个零模波导孔中的所有Subreads来自同一个转录本,由于其碱基出错率是随机的,可通过Subreads间比对提高碱基质量,获得一条Reads of Insert,即Reads of Insert通过同一零模波导孔中的Subreads校正后得到。

对原始下机数据进行提取和过滤Subreads,去除Adapter和低质量的序列。为了充分利用数据,筛选出长度大于50bp、序列准确度大于0.8并且Full Passes数目大于0的序列,得到Reads of Insert,如。一个Full passes指原始序列中的一条子序列两端均含有 Adapter(图中黑色区域),一个原始序列的Full passes数目指在该序列中文库cDNA序列被完整测到的次数,中有Full passes数目为2。

http://wx2/large/a5d4da69gy1fd76h8auf6j20iv087glx.jpg ——数据质控篇" />

​我们对每个样品的Reads of Insert按不同插入片段长度分别进行统计,包括RoI序列数目、RoI总碱基量、RoI序列平均长度、RoI序列平均质量和平均Passes。整理好的数据就可以开展后续的分析了,具体分析内容将在下一期进行阐述,敬请期待。

派森诺优势

2016年,派森诺生物在原有的PacBio RS II三代高通量测序仪基础上,率先部署最新款PacBio Sequel测序仪,并已投入使用,助力全长转录组测序研究!

作为行业先锋,派森诺生物将一如既往地行使“解析序列,诠释生命”的理念,秉承“立足客户需要,满足个性需求”的服务宗旨,始终如一地提供性价比最高、最优质、最快速稳定的高通量测序和数据解析方案。

派森诺生物将竭诚为您服务!

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有