数据归一化与标准化
(2016-10-07 20:51:24)
标签:
it |
分类: 算法基础 |
1.数据归一化
数据归一化是一种数据预处理方法,就是把待处理数据经某种算法限制在需要的一定范围内,为了后面数据处理的方便,其次是保正程序运行时收敛加快,一般指将数据限制在[0,1]之间。
比如说,对于奇异样本数据(奇异样本数据数据是相对于其他输入样本特别大或特别小的样本矢量),该数据引起的网络训练时间增加,并可能引起网络无法收敛,所以对于训练样本存在奇异样本数据的数据集在训练之前,最好先进形归一化,若不存在奇异样本数据,则不需要事先归一化。
数据归一化另一个作用是将一个有量纲的表达式转化为无量纲的表达式,成为一个纯量,避免具有不同物理意义和量纲的输入变量不能平等使用。而且在统计学中,数据归一化的具体作用是归纳统一样本的统计分布性。归一化在0-1之间是统计的概率分布,归一化在[-1,1]之间是统计的坐标分布。
归一化有同一、统一和合一的意思。无论是为了建模还是为了计算,首先基本度量单位要同一,神经网络是以样本在事件中的统计分别几率来进行训练(概率计算)和预测的,归一化是统一在0-1之间的统计概率分布。
数据归一化的方法:
A. 若是区间上的值,则可以用区间上的相对位置来归一化,即选中一个相位参考点,用相对位置和整个区间的比值或是整个区间的给定值作比值,得到一个归一化的数据,比如概率值范围[0,1]。
B. 若是物理量,则一般可以统一度量衡之后归一,实在没有统一的方法,则给出一个自定义的概念来描述亦可。
C. 若是数值,则可以用很多常见的数学函数进行归一化,使它们之间的可比性更显然,更强,比如对数归一,指数归一,三角or反三角函数归一等,归一的目的可能是使得没有可比性的数据变得具有可比性,但又还会保持相比较的两个数据之间的相对关系,如大小关系,大的仍然大,小的仍然小,或是为了作图,原来很难在一张图上作出来,归一化后就可以很方便的给出图上的相对位置等,通用的有线性函数转换(最大最小值转换法)、对数函数转换和反余切函数转换等。
(1)线性函数转换(最大最小值转换法)
y = (x-min)/(max-min)
x、y分别表示输入、输出值,max、min表示样本中的最大、最小值。
(2)对数函数转换
y = log10x = lg(x)
x、y分别表示输入、输出值,y为x的以10为底的对数函数转换值。
(3)反余切函数转换
y = atan(x)*2/pi
此外,从集合的角度来看,有些数据或者对象不具备可比性,但是可以通过做维度的维一,即抽象化归一,把不重要的,不具可比性的集合中的元素的属性去掉,保留人们关心的那些属性,这样,本来不具有可比性的对象或是事物,就可以实现归一,即归为一类,然后就可以比较了。并且,人们往往喜欢用相对量来比较,比如人和牛,身高体重都没有可比性,但“身高/体重”的值,就可能有了可比性,这些,从数学角度来看,可以认为是把有纲量变成了无纲量了。
2.数据标准化
数据标准化是对原始数据进行缩放处理,限制在一定的范围内,一般指正态化,即均值为0,方差为1,即使数据不符合正态分布,也可以采用这种方法,标准化后的数据有正有负。
数据标准化的原因是由于信用指标体系的各个指标度量单位是不同的,为了能够将指标参与评价计算,需要对指标进行规范化处理,通过函数变换将其数值映射到某个数值区间。
数据标准化作用:
(1)数据同趋化处理,解决不同性质数据问题,对不同性质指标直接加总不能正确反映不同作用力的综合结果,须先考虑改变逆指标数据性质,使所有指标对测评方案的作用力同趋化,再加总才能得出正确结果。
(2)无量纲化处理,要解决数据的可比性。
数据标准化一般采用Z-score规范化,即给原始数据的均值mean和标准差std进行数据的标准化方法,经过处理的数据符合标准正态分布,即mean=0,std=1,转化函数表示为
X* = (x-mean)/std
mean表示原数据样本的均值,std为原样本数据标准差。

加载中…