加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

常用归一化(标准化)方法(线性归一化、0均值归一化)

(2022-04-08 16:51:18)
分类: 数据处理
1). 线性归一化,线性归一化会把输入数据都转换到[0 1]的范围,公式如下

该方法实现对原始数据的等比例缩放,其中Xnorm为归一化后的数据,X为原始数据,Xmax、Xmin分别为原始数据集的最大值和最小值。

适用于数值比较集中的情况,可使用经验值常量来来代替max,min

优点:通过利用变量取值的最大值和最小值将原始数据转换为界于某一特定范围的数据,从 而消除量纲和数量级的影响

适用于经过处理后符合标准正态分布,即均值为0,标准差为1

缺点:由于极值化方法在对变量无量纲化过程中仅仅与该变量的最大值和最小值这两个极端 值有关,而与其他取值无关,这使得该方法在改变各变量权重时过分依赖两个极端取值。 

2)零均值归一化(zero-mean normalization):

将原始数据集归一化为均值为0、方差1的数据集,归一化公式如下:

https://images2015.cnblogs.com/blog/743682/201511/743682-20151108155308414-1556013345.png

其中,μ、σ分别为原始数据集的均值和方法。该种归一化方式要求原始数据的分布可以近似为高斯分布,否则归一化的效果会变得很糟糕。

优点:去量纲化

缺点:这种归一化方式要求原始数据的分布可以近似为高斯分布,否则归一化的效果会变得 很糟糕。

3) 非线性归一化
使用非线性函数log、指数、正切等,如y = 1-e^(-x),在x∈[0, 6]变化较明显, 用在数据分化比较大的场景
适用于在实际工程中,经常会有类似点击次数/浏览次数的特征,这类特征是长尾分布的,可以将其用对数函数进行压缩。特别的,在特征相除时,可以用对数压缩之后的特征相减得到。


0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有