加载中…
个人资料
supersasmacro
supersasmacro
  • 博客等级:
  • 博客积分:0
  • 博客访问:514,547
  • 关注人气:503
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
博文
标签:

sas

em

变量转换

transform

variable

教育

分类: 企业数据挖掘EM
SAS EM:变量转换结点(Transform Variable Node)

SAS EM(Enterprise Miner)企业数据挖掘节点功能详解及代码实现(第八弹)

本文未经作者允许,请勿转载


变量转换结点(Transform Variable Node)提供各种衍生变量的产生功能,数值数据转置等。变量转换结点允许你透过转换在数据中已存在的变量建立新的变量。举例来说,你可以在变量中稳定变异数、移除非线性和更正非正态分布的数据,有几种转换的型态: 
 

转换为三种方法:
基本转换:
 Log:取对数。
 Square root:取平方根。
 Inverse:取倒数。
 Square:取平方。

标签:

sas

em

variable

selection

node

变量选择

dmsplit过程步

教育

分类: 企业数据挖掘EM
SAS EM:Variable Selection node(变量选择节点)

运用卡方方式进行变量选择,暨PROC dmsplit(dmsplit过程步)讲解

SAS EM(Enterprise Miner)企业数据挖掘节点功能详解及代码实现(第七弹)

本文未经作者允许,请勿转载

许多数据挖掘的数据集都含有数百个潜在的独立变量作为模型的输入变量,通过变量选择节点可以去除与目标不相关的变量来减少输入的变量。通常使用的方法是利用线性模式用选择的输入变量来预测目标变量,然后保留信息含量较大的输入变量,举例来说,使用最小平方(Least Squares)、Logistic的回归方法或是其他分析的方法,在这里你可以先用使用 R-square(R2)或是 Chi-square(卡方)的方法来选择变量。
 

标签:

sas

em

data

partition

node

数据拆分

节点

教育

分类: 企业数据挖掘EM
SAS EM:Data Partition node(数据拆分节点)

SAS EM(Enterprise Miner)企业数据挖掘节点功能详解及代码实现(第二弹)

本文未经作者允许,请勿转载

Data Partition node(数据拆分节点)允许用户拆分数据做为训练、验证及测试等目的。拆分数据有助于加速模块开发。此外数据拆分也提供相互独立的数据做为交叉验证和模块评估之用。主要以简单、分层随机或自定义的抽样为基础。在做完抽样之后,你可以对将资料拆分成几个互斥的子集合,使用互斥的集合可使得评估模式更为精确。在这边可设定的参数,除了抽样方法、样本大小和随机数种子之外,必须分别决定训练、验证和测试集合所占的比例。
 

SAS EM提供了三种数据拆分的方式,主要有简单随机数据拆分,层次数据
标签:

sampling

node

抽样节点

sas

em

教育

分类: 企业数据挖掘EM
SAS EM:Sampling node(抽样节点)

SAS EM(Enterprise Miner)企业数据挖掘节点功能详解及代码实现(第一弹)

本文未经作者允许,请勿转载

 

数据抽样又称数据取样,从欲研究的全部样本中抽取一部分样本单位。其基本要求是要保证所抽取的样本单位对全部样本具有充分的代表性。抽样的目的是从被抽取样本单位的分析、研究结果来估计和推断全部样本特性,是科学实验、质量检验、社会调查普遍采用的一种经济有效的工作和研究方法。

1 简单随机抽样(simple random sampling):

每个抽样单位具有相同概率被抽入样本。总体编号方法及随机抽取方法依调查对象而定。

这里的sample size用的是percentage,即抽样分数(sampling fraction):指一个样本所包含的抽样单位数占其

标签:

数据清理

sas

教育

data

cleaning

分类: Function函数

数据清理data Cleaning技术大全及SAS实现

 

转载请注明出处:http://blog.sina.com.cn/s/blog_5d3b177c0100esmx.html

 

1 简介

数据清理是数据准备一个很重要的环节,什么是数据清理呢?数据清理

Is for techies 技术人员的事

Is just coding 只是写代码

Is boring 很无聊

Consumes up to 80 % of the project要花掉项目80%的时间

Was not in the focus of data mining literature so far在数据挖掘中数据清理相关的文章不是很多

Is something that SAS can excellently do  SAS可以很好地搞定

Is vital to the quality of the project 是项目质量的一个重要步骤

 

首先说明一下,由于没搞到本书的数据,所以就用其它的书《Predictive Modeling Using Logistic Regressio》的数据进行程序调试。

 

2 字符型数据清理

2.1 观察数据集

2.1.1 首先可以观察一下数据集中,所有字符型变量的数据情况:

proc

标签:

sas

import

数据导入

教育

分类: Proc过程

运用import过程进行SAS数据导入完全实用教程

 

转载请注明出处:http://blog.sina.com.cn/s/blog_5d3b177c0100e7fa.html

 

1 单个规范格式文件导入。

对单个文件进行导入是我们遇到最多的情况,主要有以下几种:

 

1.1 对指定分隔符(’|’,’ ’,’!’,’ab’等)数据的导入,这里以’!’为例delimiter='!'进行说明:

data _null_;

  file 'c:\temp\pipefile.txt';

  put'X1!X2!X3!X4';

  put '11!22!.! ';

  put '111!.!333!apple';

run;

导入程序:

proc import

  datafile='c:\temp\pipefile.txt'

  out=work.test

  dbms=dlm

  replace;

delimiter='!';

GUESSINGROWS=

标签:

sas

缺失值

missing

nmiss

教育

分类: Function函数

sas缺失值missing data详解

 

有数据的地方就有缺失值,正确管理缺失值,对我们写出清晰明了的代码非常有帮助。本文对SAS中的缺失值作一个详细的介绍。

 

转载请注明出处:http://blog.sina.com.cn/s/blog_5d3b177c0100e6lm.html

  

1 SAS的缺失值

SAS的缺失值分为两类,一类是数值型的缺失值,用(.)表示,另一类是字符型的缺失值,用(’’)或者(’ ‘)表示。例:

data miss1;

  input charmiss $ 1 nummiss 3;

cards;

A 1

 

  3

D 4

;

proc print;

run;

结果:

Obs    charmiss    nummiss

          

标签:

sas

随机数

monte

carlo

蒙特卡罗

教育

分类: MonteCarlo蒙特卡罗

运用SAS进行Monte Carlo蒙特卡罗模拟(第四弹):

SAS产生随机数的方法:随机数函数和CALL子程序

 

本文未经作者同意严禁转载

 

 

1 随机数函数产生随机数序列

随机数函数产生随机数序列的语法:var=name(seed,<arg>),我们在前面的文章里使用的都是此类方法,变量var记录了由随机数种子为seed的随机函数name产生的一个随机数。我们举两个例子来深入说明随机数函数产生随机数序列的原理。

程序1:

DATA TEMP1(DROP=I);    

    DO I=1 TO 10      

       RUNI=RANUNI(123);

       SEED=RUNI*(2**31-1);      

       OUTPUT;    

    END; &nb

标签:

sas

sql

教育

分类: SQL

SAS中的SQL语句完全教程之三:SQL过程步的其它特征

 

 

本系列全部内容主要以《SQL Processing with the SAS System (Course Notes)》为主进行讲解,本书是在网上下载下来的,但忘了是在哪个网上下的,故不能提供下载链接了,需要的话可以发邮件向我索取,我定期邮给大家,最后声明一下所有资料仅用于学习,不得用于商业目的,否则后果自负。

 

转载请注明出处:http://blog.sina.com.cn/s/blog_5d3b177c0100cn8v.html

 

前面两部分内容都比较简单,本节内容才是本系列要介绍的重点。不过这里装的内容都是点到即止,如果以后有时间,会进行更详细地讲解。

 

1 SQL过程步选项

SQL过程步选项的作用主要是可以从更细节的方式去控制SQL过程步,并且可以在不执行过程的情况下对程序进行测试等。

下面介绍一下列出来的选项,这些选项大多经常用到,更多的选项可以参考SAS帮助。

INOBS:进行一个查询时,对每个源数据表进行N行限制,仅对这N行的数据进行查询。

OUTOBS:指定查询输出

标签:

sas

sql

教育

分类: SQL

SAS中的SQL语句完全教程之二:数据合并与建表、建视图索引等

 

本系列全部内容主要以《SQL Processing with the SAS System (Course Notes)》为主进行讲解,本书是在网上下载下来的,但忘了是在哪个网上下的,故不能提供下载链接了,需要的话可以发邮件向我索取,我定期邮给大家,最后声明一下所有资料仅用于学习,不得用于商业目的,否则后果自负。

 

转载请注明出处:http://blog.sina.com.cn/s/blog_5d3b177c0100cm1t.html

 

1 连接joins分为内连接inner joins和外连接outer joins

内连接:仅返回匹配的数据,最多可以有32个表同时进行内连接

外连接:返回所有匹配的数据和非匹配的数据,一次只能有两个表或视图进行外连接

迪卡尔积:返回表内所有可能的匹配情况。例如表A有10*20的数据,表B有30*40的数据,则两个表的迪卡尔积有(10+30)*(20+40)=40*60的数据

 

我们先建立两个数据集:

 

data march;

 &nb

  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有