加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

quantile normalization 分位数标准化

(2017-10-26 15:36:06)
标签:

生物

数据分析

为了说明分位数标准化,我们采用一个小型的数据集合来说明

①.比如有下面的一个数据集
说明:横行为一个基因不同样本的数据,纵行是每个基因对应样本的值
    样本1      样本2    样本3
A     5         4         3
B     2         1        
    3         4         6
D     4         2         8

②.对于每一列,按照它们的数值大小确定它的级别(用罗马数字Ⅰ、Ⅱ、Ⅲ、Ⅳ表示 
     样本1    样本2    样本3
A            Ⅲ          
B            Ⅰ          
C            Ⅲ          
D            Ⅱ          

③.先不看排序的值,回头来看①中的数据,将每一列的数据按照从小到大排序(此时是为了后续的计算,所以进行这种操作,没有改变了各个基因的数据)
    样本1     样本2     样本3
A     2         1         3
B     3         2         4
    4         4         6
D     5         4         8

④.然后求取每行的平均值,并标明平均值的级别(用㊀㊁㊂㊃表示)
A   (2+1+3)/3 = 2.00   级别 ㊀
B   (3+2+4)/3 = 3.00   级别 ㊁
  (4+4+6)/3 = 4.67   级别 ㊂
D   (5+4+8)/3 = 5.67   级别 ㊃

⑤.然后将②中的级别按照对应关系将数值替换
对应关系
Ⅰ  ------>㊀(2.00)
  ------>㊁(3.00)
  ------>㊂(4.67)
  ------>㊃(5,67)

     样本1    样本2    样本3                      样本1    样本2   样本3
A                    Ⅰ         ------>   A     5.67    4.67     2.00
                            ------>   B     2.00    2.00      3.00
C                             ------>   C     3.00    4.67      4.67
D                             ------>   D    4.67    3.00      5.67

⑥.得到了一个新的数据集
         旧的数据集                                           新的数据集
     样本1   样本2   样本2                          样本1  样本2  样本2
A     5         4          3        <------>   A     5.67    4.67   2.00
    2         1          4        <------>   B     2.00    2.00    3.00
C     3         4          6        <------>   C     3.00    4.67    4.67
D     4         2          8        <------>   D    4.67    3.00    5.67


参考史迪仔_lmj的博文
 http://www.cnblogs.com/lmj-sky/p/6036392.html

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有