加载中…
个人资料
加菲不是猫
加菲不是猫
  • 博客等级:
  • 博客积分:0
  • 博客访问:6,126
  • 关注人气:143
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

数据预处理-标准化

(2016-03-01 18:23:04)
标签:

标准化

分类: 数据分析
1.  极差归一化(最大值-最小值标准化)
是对原始数据的线性变换,使结果落到区间[0,1]:
y=(x-MinValue)/(MaxValue-MinValue)
该方法有一个缺陷就是当有新数据加入时,可能导致max和min的变化,需要重新计算一次max和min。

2. Z标准化(平均方差法)
这是运用最多的基于统计理论的标准化方法,经过处理的数据符合标准正态分布,即均值为0,标准差为1:
y=(x-μ)/ σ
其中μ为样本数据的均值,σ为方差。
3. log函数标准化
通过以10为底的log函数转换的方法:
y=log10(x)/log10(MaxValue)
 
4.  arctan函数标准化
Y=arctan(x)*2/π
得到的标准化后的间间为[-1,1]。若想只要[0,1]区间,数据都应该大于等于0。
2.zscore函数实现z标准化  
经过处理的数据符合标准正态分布,即均值为0,标准差为1:
y=(x-μ)/ σ
其中μ为均值,σ为方差。
matlab 里的zscore函数调用格式:
Z = zscore(X)
[Z,mu,sigma] = zscore(X)
[…] = zscore(X,1)   % 计算公式中用n代替n-1
[…] = zscore(X,flag,dim)  % flag=0用n;flag=1用n-1;
% dim=1按列(默认);dim=2按行

例2  调用rand函数产生一个随机矩阵,然后调用zscore函数将其按列标准化。
代码:
x=[rand(10,1),5*rand(10,1),10*rand(10,1),500*rand(10,1)]
[xz,mu,sigma] = zscore(x)
mean(xz)
std(xz)
运行结果:x =

    0.4387    1.3801    7.5127  420.3586
    0.3816    3.3985    2.5510  127.1411
    0.7655    3.2755    5.0596  407.1424
    0.7952    0.8131    6.9908  121.7625
    0.1869    0.5950    8.9090  464.6318
    0.4898    2.4918    9.5929  174.9919
    0.4456    4.7987    5.4722   98.2976
    0.6463    1.7019    1.3862  125.5419
    0.7094    2.9263    1.4929  308.0223
    0.7547    1.1191    2.5751  236.6444

xz =

   -0.6056   -0.6420    0.7725    1.2190
   -0.8880    0.8477   -0.8527   -0.8603
    1.0083    0.7569   -0.0310    1.1253
    1.1549   -1.0605    0.6016   -0.8984
   -1.8495   -1.2215    1.2299    1.5330
   -0.3536    0.1785    1.4540   -0.5209
   -0.5718    1.8811    0.1041   -1.0648
    0.4196   -0.4045   -1.2343   -0.8716
    0.7309    0.4992   -1.1993    0.4224
    0.9548   -0.8347   -0.8448   -0.0837

mu =

    0.5614    2.2500    5.1542  248.4535

sigma =

    0.2025    1.3549    3.0528  141.0171

ans =

  1.0e-015 *

   -0.4330   -0.1221    0.1221    0.2984

ans =

    1.0000    1.0000    1.0000    1.0000    

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有