加载中…
个人资料
Mars-Zhan
Mars-Zhan
  • 博客等级:
  • 博客积分:0
  • 博客访问:1,933
  • 关注人气:52
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

RPKM与FPKM

(2014-10-15 23:11:34)
标签:

股票

分类: biology

RPKM与FPKM  

转载:http://fhqdddddd.blog.163.com/blog/static/1869915420126173518426/

RNA- seq是透过次世代定序的技术来侦测基因表现量的方法,在衡量基因表现量时,若是单纯以map到的read数来计算基因的表现 量,在统计上是一件相当不合理事,因为在随机抽样的情况下,序列较长的基因被抽到的机率本来就会比序列短的基因较高,如此一来,序列长的基因永远会被认为 表现量较高,而错估基因真正的表现量,所以Ali Mortazavi等人在2008年提出以RPKM在估计基因的表现量。

RPKM是将map到基因的read数除以map到genome的所有read数(以million为单位)与RNA的长度(以KB为单位)。

其公式为:


其中,total exon reads / mapped reads (millions) 可以视为所有read 数中有百分之多少是map 到这个基因,然后再除以基因长度,就可以某基因得到单位长度有百分之多少的total mapped read 有表现。

以下就用一个简化的例子来说明RPKM的运用方式与概念:

假设一基因体只有两个基因,一个9 KB,一个1 KB,如今有一sample,其map 到9 KB 的read 有18 million 个,map 到1 KB 的有2 million 个,如下图所示。


对于9 KB 的基因而言,

Total exon reads=18 million

Mapped reads=18+2=20 million

Exon length=9 KB

RPKM =18/(20*9)=0.1

对于1 KB 的基因而言,

Total exon reads=2 million

Mapped reads=18+2=20 million

Exon length=1 KB

RPKM =2/(20*1)=0.1

由此我们可以知道这两个基因表现量没有差别。

假设此时我们有另一个sample,其表现如下图所示:


我 们可以发现此sample中9 KB基因的read数明显比上一个sample少,如果我们计算RPKM可以得到RPKM = 9/((9+1)*9)=0.1,却与上一个sample相同,这可能是因为cDNA浓度较低或是其他sample备制过程的问题,造成整体read变 少,但是对9 KB基因而言,其read数占所有read数的比例并没有发生改变,所以其表现量会和上一个sample相同。


RPKM,Reads Per Kilobase of exon model per Million mapped reads, is defined in thisway [Mortazavi etal., 2008]:
每1百万个map上的reads中map到外显子的每1K个碱基上的reads个数。
假如有1百万个reads映射到了人的基因组上,那么具体到每个外显子呢,有多少映射上了呢,而外显子的长度不一,那么每1K个碱基上又有多少reads映射上了呢,这大概就是这个RPKM的直观解释。
举例:比如对应到该基因的read有1000个,总reads个数有100万,而该基因的外显子总长为5kb,那么 它的RPKM为:10^9*1000(reads个数)/10^6(总reads个数)*5000(外显子长度)=200或者:1000(reads个 数)/1(百万)*5(K)=200这个值反映基因的表达水平。
FPKM与RPKM计算方法基本一致。公式如下:
不同点就是FPKM计算的是片段(fragments),而RPKM计 算的是数据(reads)。Fragment比read的含义更广,因此FPKM包含的意义也更广,可以是pair-end的一个fragment,也可以是一个read。FPKM和RPKM RPKM代表每千个碱基的转录每百万映射读取。 FPKM代表每千个碱基的转录每百万映射读取的碎片。

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有