加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

[转载]转录组RNA测序之表达差异分析及常见问题

(2018-09-28 14:25:34)
标签:

转载

分类: NGS知识

谈到转录组测序的应用方向,差异基因的分析就不得不谈了:选用来自不同状态/ 不同组织的样本为研究对象,通过分析各样本基因表达量情况,进行表达差异分析,从而推断出与其状态相关的候选基因,揭示差异基因的功能及相关的分子机制。

  • 表达量的统计

表达量的统计是基于FPKM 值,表现形式为分布图。这个指标同时考虑了测序深度和基因长度对reads序列数的影响。

http://s11/bmiddle/002mgBnTzy7nVkUIrJUea&690

横坐标:log10FPKM,此值是对表达量的衡量,该数值越高,表示基因表达量越高。

纵坐标:基因/ 转录本的密度:对应横轴表达量的基因数/ 检测已表达基因总数。

  • 表达差异可视化分析

散点图 火山图

表达差异分析可以用两种图来呈现,分别为:散点图和火山图。两种呈现形式都是从宏观上展示样本间差异基因的多少与上、下调基因的个数,但具体展示形式有所不同。

http://s8/bmiddle/002mgBnTzy7nVkY3Ydp17&690

  • 差异表达基因Venn 图

差异基因Venn 图是用于显示差异基因的重叠区域的图示,通过求每组差异基因的交集来实现,表示各组差异基因之间的关系。通过差异基因Venn 图可观察出差异基因在各组样品间的分布状况。

http://s5/mw690/002mgBnTzy7nVl14Kpuf4&690
 

了解了什么是差异分析、应用方向及分类,但是在进行差异表达分析研究时又会遇到哪些问题呢,且看下文~~

1 基于转录组测序数据,如何估算基因表达水平?

一个基因表达水平的直接体现就是其转录本的丰度情况,转录本丰度越高,则基因表达水平越高。在分析中,我们衡量基因表达水平的标准为RPKM (FPKM) 值(Reads/(Fragments) Per Kilobaseof exon model per Million mapped reads),即每一百万条序列中,每个基因以一千个碱基为单位,比对上的reads个数。由于各基因碱基长度不同,在分析其特定表达量时,会将比对上的测序条数和其基因长度关联分析。RPKM 和FPKM 的区别在于,基于不同的软件或算法。RPKM 中是以reads 为单位,而FPKM是以建库时打断的片段(fragments) 为分析单位。常用的分析软件有rSeq、DEGseq、Cufflinks等。

2 分析到的差异基因数目偏少,能否调整参数重新分析?

首先确认所取样品的时间点是否严格控制,明确是两样品间本身差异基因就少,还是其他原因。确定无误后可适当调整FDR≤ 0.05 and | log2FC | ≥1 这一参数来进行差异基因的筛选。

3 某基因在两个样本中表达量差别很大,差异显著性判断却是no,这是为何?

差异基因的筛选是基于统计学意义的,不能仅仅通过一个基因在两个样本中表达量数值的大小判断差异基因是否显著。差异分析时首先需要对read count 进行标准化处理,避免测序深度的影响。同时也需要对p value 进行校正,生成fdr值降低假阳性。

4 为什么分析到的差异表达基因与Q-PCR 实验结果不一致,无法被验证?

RNA-seq 是大规模筛选用的,反应样本整体的基因表达变化趋势,但不能保证每一个基因的变化趋势都与Q-PCR一致。RNA-seq 与RT-PCR 本身就是两种不同的实验平台,两者不能一一对应。一般是挑选大量的基因验证,两者的结果从统计学上来说存在较高的相关性(r2>0.8),视为验证成功。

http://s12/small/002mgBnTzy7nVl6WaYH8b&690
微信扫一扫关注该公众号

0

  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有