加载中…
个人资料
supersasmacro
supersasmacro
  • 博客等级:
  • 博客积分:0
  • 博客访问:396,793
  • 关注人气:494
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
声明

本博客的所有内容来自互联网,主要目的是为了学习SAS,禁止应用于商业目的,否则后果自负。

图片播放器
好友
加载中…
评论
加载中…
留言
加载中…
博文
标签:

杂谈



阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
标签:

教育

分类: SQL
数据量大的时候,用not in速度太慢,今天学到一招,就是用left join进行优化。然后在网上查了一下,原来这个方法很普遍了。不过自己记录一下吧,以后会用到的。方法如下:最终C和D两个数据集是一致的。

data a;
input a1 a2;
cards;
1 2
1 3
2 2
2 1
;
run;

data b;
input a1 b1;
cards;
1 2
3 4
;
run;

proc sql;
create table c as
select a.*
from a a
left join b b
on a.a1=b.a1
where b.a1=.;
quit;

proc sql;
create table d as
select a.*
from a a
where a.a1 not in
(select a1 from b);
quit;

proc print data=c;
run;

proc print data=d;
阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
SAS EM:变量转换结点(Transform Variable Node)

SAS EM(Enterprise Miner)企业数据挖掘节点功能详解及代码实现(第八弹)

本文未经作者允许,请勿转载


变量转换结点(Transform Variable Node)提供各种衍生变量的产生功能,数值数据转置等。变量转换结点允许你透过转换在数据中已存在的变量建立新的变量。举例来说,你可以在变量中稳定变异数、移除非线性和更正非正态分布的数据,有几种转换的型态: 
 

转换为三种方法:
基本转换:
 Log:取对数。
 Square root:取平方根。
 Inverse:取倒数。
 Square
阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
SAS EM:Variable Selection node(变量选择节点)

运用卡方方式进行变量选择,暨PROC dmsplit(dmsplit过程步)讲解

SAS EM(Enterprise Miner)企业数据挖掘节点功能详解及代码实现(第七弹)

本文未经作者允许,请勿转载

许多数据挖掘的数据集都含有数百个潜在的独立变量作为模型的输入变量,通过变量选择节点可以去除与目标不相关的变量来减少输入的变量。通常使用的方法是利用线性模式用选择的输入变量来预测目标变量,然后保留信息含量较大的输入变量,举例来说,使用最小平方(Least Squares)、Logistic的回归方法或是其他分析的方法,在这里你可以先用使用 R-square(R2)或是 Chi-square(卡方)的方法来选择变量。
 
阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
SAS EM:Variable Selection node(变量选择节点)

运用R2方式进行变量选择,暨PROC DMINE(DMINE过程步)讲解

SAS EM(Enterprise Miner)企业数据挖掘节点功能详解及代码实现(第六弹)

本文未经作者允许,请勿转载

许多数据挖掘的数据集都含有数百个潜在的独立变量作为模型的输入变量,通过变量选择节点可以去除与目标不相关的变量来减少输入的变量。通常使用的方法是利用线性模式用选择的输入变量来预测目标变量,然后保留信息含量较大的输入变量,举例来说,使用最小平方(Least Squares)、Logistic的回归方法或是其他分析的方法,在这里你可以先用使用 R-square(R2)或是 Chi-square(卡方)的方法来选择变量。本文讲解通过R-square(R2)来进行变量选择。
 
阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
SAS EM:Association node(关联节点)

SAS EM(Enterprise Miner)企业数据挖掘节点功能详解及代码实现(第五弹)

本文未经作者允许,请勿转载

在一个事件或是一笔记录中,不同项目一起发生的机率,借着发掘关联规则,形成每一个关联和顺序,让用户确认数据间关联关系。如:尿布和啤酒的关系。
这些关联规则发掘的基础是建立在项目单独和一起在数据库中发生的频率次数,一个关联规则可能表达成“如果项目A是事件的一部分,则项目B也是事件的一部分,这样的情形发生的机率有X“。这些关联规则不能解释成直接的因果关系,但是可以解释成两个或是多的项目的关联,然而发掘这些可信的关联规可供企业决策,例如:商品的促销或是摆设。
在这边可以设定关联规则的参数有: 
 Minimum Transaction Frequency:最小的支持度(Support),也就是项目在整个数据库中一起发生的机率。
 Maximum Number of Items in an Association:最大在关联集合的项目数。
 Minimum Confidence:最小的置信度(Conf
阅读  ┆ 评论  ┆ 转载 ┆ 收藏 

 

SAS EM:探索结点(Insight node)


SAS EM(Enterprise Miner)企业数据挖掘节点功能详解及代码实现(第四弹)


本文未经作者允许,请勿转载


数据源中的缺失值、边界值、不规则分布都可能会影响到挖掘得建模甚至歪曲挖掘得结果。所以,清楚的了解数据源的内容和结构对于建立一个数据挖掘项目来说是非常重要的。

探索结点(Insight node) 是交互式图形化统计分析工具,可以让使用者用在不同的窗口中的不同的图形和分析值交互式的探索和分析数据。探索节点允许你从多个图形和分析中互动的探索和分析数据,举例来说,你可以分析单变量或是多变量的分配、建立散布图或是箱型图或是检验相关系数ANOVA 和 GLM等等。如果洞察节点是来自流程中的数据集合,则它可以使用整个数据集合或是使用抽样的meta data 当做输入。 

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
SAS EM:Multiplot node(绘图结点)

SAS EM(Enterprise Miner)企业数据挖掘节点功能详解及代码实现(第三弹)

本文未经作者允许,请勿转载

绘图节点是一个可视化工具,帮助用户在大量数据中找到数据的形态。可批量生成直方图和散布图,并可以做回归及平滑直方图从布了解数据的分布情况。它和分布浏览器节点不同的是―它会从数据集合中的输入和目标变量自动的绘制图表,而图表的种类有:直方图(Bar Charts)和散布图(Scatter Plots)等。另外,它还会预设的绘制一条在90%信赖区间内的回归线。

对于Multiplot node(绘图结点):
 

首先设置字体:
 
阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
SAS EM:Data Partition node(数据拆分节点)

SAS EM(Enterprise Miner)企业数据挖掘节点功能详解及代码实现(第二弹)

本文未经作者允许,请勿转载

Data Partition node(数据拆分节点)允许用户拆分数据做为训练、验证及测试等目的。拆分数据有助于加速模块开发。此外数据拆分也提供相互独立的数据做为交叉验证和模块评估之用。主要以简单、分层随机或自定义的抽样为基础。在做完抽样之后,你可以对将资料拆分成几个互斥的子集合,使用互斥的集合可使得评估模式更为精确。在这边可设定的参数,除了抽样方法、样本大小和随机数种子之外,必须分别决定训练、验证和测试集合所占的比例。
 

SAS EM提供了三种数据拆分的方式,主要有简
阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
SAS EM:Sampling node(抽样节点)

SAS EM(Enterprise Miner)企业数据挖掘节点功能详解及代码实现(第一弹)

本文未经作者允许,请勿转载

 

数据抽样又称数据取样,从欲研究的全部样本中抽取一部分样本单位。其基本要求是要保证所抽取的样本单位对全部样本具有充分的代表性。抽样的目的是从被抽取样本单位的分析、研究结果来估计和推断全部样本特性,是科学实验、质量检验、社会调查普遍采用的一种经济有效的工作和研究方法。

1 简单随机抽样(simple random sampling):

每个抽样单位具有相同概率被抽入样本。总体编号方法及随机抽取方法依调查对象而定。

这里的sample size用的是percentage,即抽样分数(sampling fraction):指一个样本所包含的抽样单位数占其

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
  

新浪BLOG意见反馈留言板 不良信息反馈 电话:4006900000 提示音后按1键(按当地市话标准计费) 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

新浪公司 版权所有