SAS EM:变量转换结点(Transform Variable Node)
(2010-08-07 14:09:13)
标签:
sasem变量转换transformvariable教育 |
分类: 企业数据挖掘EM |
SAS EM:变量转换结点(Transform Variable Node)
SAS EM(Enterprise Miner)企业数据挖掘节点功能详解及代码实现(第八弹)
本文未经作者允许,请勿转载
变量转换结点(Transform Variable
Node)提供各种衍生变量的产生功能,数值数据转置等。变量转换结点允许你透过转换在数据中已存在的变量建立新的变量。举例来说,你可以在变量中稳定变异数、移除非线性和更正非正态分布的数据,有几种转换的型态:
转换为三种方法:
基本转换:
Log:取对数。
Square root:取平方根。
Inverse:取倒数。
Square:取平方。
Exponential:取指数。
Standardize:标准化。
Binning转换即连续数据分箱:
Bucket:将数据依照同大小的宽度分成 n 个区间,每个区间内的数据个数通常会不一样。
Quantile:将数据依照数据个数分成 n 个区间,每个区间内的数据各数会相同。
Best power transforms:最优次方转换
Optimal binning for relationship to target:根据目标去优化区间。
Maximize normality:最大化正态分布。
Maximize correlation with target:最大化与目标的相关系数。
Equalize spread with target levels:使与目标的区间相同。
原始变量或是转换变量展现的字段包括:
Name:原始变量或是转换变量的名称。
Keep:保留变数做为输出。
Mean:平均值。
Std Dev:标准偏差。
Skew:歪斜值,如果为正,表示在平均值右边的宽度比左边大;如果为负,则表示平均值右边的宽度比左边小。
Kurtosis:针对分布的形状的测量值,大的值表示含有一些资料距离平均值较远。
C.V.:共变异数。
Formula:转换的公式。
Format:变数的格式。
Label:变量的卷标。
变量转换结点(Transform Variable Node)
设置目标变量
对变量进行转换
变量转换结果
代码实现如下:
%let DM_SEED = 12345;
libname SAMPSIO list;
data EMDATA.VIEW_KXX / view=EMDATA.VIEW_KXX;
run;
data EMPROJ.SMP_VIIA /view=EMPROJ.SMP_VIIA;
run;
proc sql noprint;
quit;
data EMPROJ.SMP_XGPV/view=EMPROJ.SMP_XGPV;
run;
data EMDATA.TRNTSZ2K/view=EMDATA.TRNTSZ2K;
run;
**这里,对AMOUNT变量按Maximize normality(最大化正态分布)的要求来进行变量转换;
*这里一共提供了以下几种变量转换方式,然后找出最满足正态分布的转换方式作为最终的转换方式:求自然对数,1/4次方,1/2次方,平方,4次方,E的X次方等(log(x),x1/4,sqrt(x),x2,x4,ex);
* AMOUNT ;
data _trntmp(keep=AMOUNT _logvar _rt4var _sqrtvar _sqrvar
_pwr4var _expvar);
RUN;
**标准化;
proc standard data=_trntmp
RUN;
proc sort data=_trnstd;
run;
**先生成一个正态分布变量;
data _trnstd;
run;
**候选转换变量与正态分布变量求相关性;
proc corr data=_trnstd outp=_indtrn noprint;
run;
data _modtmp(keep=_power _val);
run;
proc sort;
run;
%let _tmpa=1;
proc sql;
quit;
run;
proc datasets lib=work nolist;
run;
quit;
proc format lib=WORK;
run;
data _trntmp(keep=DURATION GOOD_BAD _logvar _rt4var _sqrtvar
_sqrvar _pwr4var _expvar);
RUN;
proc standard data=_trntmp out=_trnstd mean=0 std=1;
run;
proc summary data=_trnstd;
run;
proc summary data=_indtrn;
run;
data _modtmp(keep=_power _val);
run;
proc sort;
run;
%let _tmpa=1;
proc sql;
quit;
run;
proc datasets lib=work nolist;
run;
quit;
**这里进行基本转换;
data EMDATA.TRNTSZ2K/view=EMDATA.TRNTSZ2K;
run;
还有一种为BIN转换,方法与变量选择时的方法类似,大家自己去研究吧。
本文用到的SAS数据集为dmagecr.sas7bdat,其下载地址:
http://ishare.iask.sina.com.cn/f/8641122.html
本系列全部数据下载地址:
http://iask.sina.com.cn/u/1564153724/ish