标签:
杂谈 |
以PacBio公司的SMRT单分子实时测序技术(Single molecule real-time sequencing)为代表的三代测序技术,通过其独有的环形一致性测序模式(Circular-consensus sequence,CCS),极大提高了单碱基测序的准确率,远超Illumina等二代测序技术。与传统转录组测序项目相比,利用PacBio平台的全长转录组测序技术可以直接获得mRNA的全长,保证了mRNA序列的精确性。上期我们为大家介绍了全长转录组测序的数据质控,本期将为大家介绍三代全长有参转录组的分析内容。主要包括:
1.
数据过滤后得到高质量的Reads of Insert(RoI),接着对其进行转录本分类。理论上完整的RoI应该有5’primer、3’primer和polyA部分。但在实际测序中,由于5’端降解等因素,并不是所有的RoI都是完整的,即不是全长转录本序列,而且有少部分RoI序列为嵌合体。因此通过检测RoI序列是否含有 5’primer, 3’primer和polyA以及其位置的关系, 将RoI序列分为全长非嵌合(Full-Length-Non-Chimeric)序列、全长嵌合(Full-Length-Chimeric)序列、非全长(Non-Full-Length)序列等。其中全长非嵌合序列即是物种原始的全长mRNA序列,各分类之间的相互关系见下图:
http://www.personalbio.cn/uploads/FTP上传/zlzl01.png
2.
全长非嵌合序列中存在大量的冗余序列,我们将冗余序列聚类到一起,得到新的一致性序列(Consensus Isoforms),然后将非全长序列比对到一致性序列上进行校正,最终得到准确度大于99% 的高质量Isoform(即转录本)。下图是Isoform长度分布图,长度分布的区间与文库片段的选择有关。
http://www.personalbio.cn/uploads/FTP上传/zlzl02.png
3.
我们将经过校正得到的Isoform与参考基因组比对, 根据基因组注释信息,可得知序列的来源基因以及表达产物的结构。与参考基因组比对情况见下图,图中Score 0:覆盖了基因的区域,但是没有或者少有与基因的exon匹配上的Isoform数目;Score 1:与基因的一些exon有一对一overlap的Isoform数目; Score 2:与基因的一些exon有一对一overlap并且匹配情况较好的Isoform数目。
http://www.personalbio.cn/uploads/FTP上传/zlzl03.png
4.
对于比对到基因组上的score为0-5的known Isoform采用有参考基因组注释方法,对于Novel Isoform采用无参考基因组注释方法。基因功能注释所用到的数据库包括 GO、KEGG、eggNOG、NR、Swiss-Prot等。下图是其中的eggNOG注释结果:
http://www.personalbio.cn/uploads/FTP上传/zlzl04.png
5.
结构分析是三代全长转录组中的一个重点研究内容,不同的样本转录物不尽相同,我们进行转录本结构分析,可以统计所有转录本的结构差异。它能够准确辨别二代测序无法识别的同源异构体或同源基因等。转录本结构分析包括可变剪接,融合基因,
UTR区域注释,cSNP 和InDel
http://www.personalbio.cn/uploads/FTP上传/zlzl05.png
http://www.personalbio.cn/uploads/FTP上传/zlzl06.png
派森诺优势
2016年,派森诺生物在原有的PacBio RS II三代高通量测序仪基础上,率先部署最新款PacBio Sequel测序仪,并已投入使用,助力全长转录组测序研究!
作为行业先锋,派森诺生物将一如既往地行使“解析序列,诠释生命”的理念,秉承“立足客户需要,满足个性需求”的服务宗旨,始终如一地提供性价比最高、最优质、最快速稳定的高通量测序和数据解析方案。
派森诺生物将竭诚为您服务!
往期内容回顾: