标签:
sasem变量转换transformvariable教育 |
分类: 企业数据挖掘EM |
标签:
sasemvariableselectionnode变量选择dmsplit过程步教育 |
分类: 企业数据挖掘EM |
标签:
sasemdatapartitionnode数据拆分节点教育 |
分类: 企业数据挖掘EM |
标签:
samplingnode抽样节点sasem教育 |
分类: 企业数据挖掘EM |
数据抽样又称数据取样,从欲研究的全部样本中抽取一部分样本单位。其基本要求是要保证所抽取的样本单位对全部样本具有充分的代表性。抽样的目的是从被抽取样本单位的分析、研究结果来估计和推断全部样本特性,是科学实验、质量检验、社会调查普遍采用的一种经济有效的工作和研究方法。
1 简单随机抽样(simple random sampling):
每个抽样单位具有相同概率被抽入样本。总体编号方法及随机抽取方法依调查对象而定。
这里的sample size用的是percentage,即抽样分数(sampling fraction):指一个样本所包含的抽样单位数占其
标签:
数据清理sas教育datacleaning |
分类: Function函数 |
数据清理data Cleaning技术大全及SAS实现
转载请注明出处:http://blog.sina.com.cn/s/blog_5d3b177c0100esmx.html
1 简介
数据清理是数据准备一个很重要的环节,什么是数据清理呢?数据清理
Is for techies 技术人员的事
Is just coding 只是写代码
Is boring 很无聊
Consumes up to 80 % of the project要花掉项目80%的时间
Was not in the focus of data mining literature so far在数据挖掘中数据清理相关的文章不是很多
Is something that SAS can excellently do
Is vital to the quality of the project 是项目质量的一个重要步骤
首先说明一下,由于没搞到本书的数据,所以就用其它的书《Predictive Modeling Using Logistic Regressio》的数据进行程序调试。
2 字符型数据清理
2.1 观察数据集
2.1.1 首先可以观察一下数据集中,所有字符型变量的数据情况:
proc
标签:
sasimport数据导入教育 |
分类: Proc过程 |
运用import过程进行SAS数据导入完全实用教程
转载请注明出处:http://blog.sina.com.cn/s/blog_5d3b177c0100e7fa.html
1 单个规范格式文件导入。
对单个文件进行导入是我们遇到最多的情况,主要有以下几种:
1.1 对指定分隔符(’|’,’ ’,’!’,’ab’等)数据的导入,这里以’!’为例delimiter='!'进行说明:
data _null_;
run;
导入程序:
proc import
delimiter='!';
GUESSINGROWS=
标签:
sas缺失值missingnmiss教育 |
分类: Function函数 |
sas缺失值missing data详解
有数据的地方就有缺失值,正确管理缺失值,对我们写出清晰明了的代码非常有帮助。本文对SAS中的缺失值作一个详细的介绍。
转载请注明出处:http://blog.sina.com.cn/s/blog_5d3b177c0100e6lm.html
1 SAS的缺失值
SAS的缺失值分为两类,一类是数值型的缺失值,用(.)表示,另一类是字符型的缺失值,用(’’)或者(’ ‘)表示。例:
data miss1;
cards;
A 1
B
D 4
;
proc print;
run;
结果:
Obs
1
标签:
sas随机数montecarlo蒙特卡罗教育 |
分类: MonteCarlo蒙特卡罗 |
运用SAS进行Monte Carlo蒙特卡罗模拟(第四弹):
SAS产生随机数的方法:随机数函数和CALL子程序
本文未经作者同意严禁转载
1 随机数函数产生随机数序列
随机数函数产生随机数序列的语法:var=name(seed,<arg>),我们在前面的文章里使用的都是此类方法,变量var记录了由随机数种子为seed的随机函数name产生的一个随机数。我们举两个例子来深入说明随机数函数产生随机数序列的原理。
程序1:
DATA
TEMP1(DROP=I);
标签:
sassql教育 |
分类: SQL |
SAS中的SQL语句完全教程之三:SQL过程步的其它特征
本系列全部内容主要以《SQL Processing with the SAS System (Course Notes)》为主进行讲解,本书是在网上下载下来的,但忘了是在哪个网上下的,故不能提供下载链接了,需要的话可以发邮件向我索取,我定期邮给大家,最后声明一下所有资料仅用于学习,不得用于商业目的,否则后果自负。
转载请注明出处:http://blog.sina.com.cn/s/blog_5d3b177c0100cn8v.html
前面两部分内容都比较简单,本节内容才是本系列要介绍的重点。不过这里装的内容都是点到即止,如果以后有时间,会进行更详细地讲解。
1 SQL过程步选项
SQL过程步选项的作用主要是可以从更细节的方式去控制SQL过程步,并且可以在不执行过程的情况下对程序进行测试等。
下面介绍一下列出来的选项,这些选项大多经常用到,更多的选项可以参考SAS帮助。
INOBS:进行一个查询时,对每个源数据表进行N行限制,仅对这N行的数据进行查询。
OUTOBS:指定查询输出
标签:
sassql教育 |
分类: SQL |
SAS中的SQL语句完全教程之二:数据合并与建表、建视图索引等
本系列全部内容主要以《SQL Processing with the SAS System (Course Notes)》为主进行讲解,本书是在网上下载下来的,但忘了是在哪个网上下的,故不能提供下载链接了,需要的话可以发邮件向我索取,我定期邮给大家,最后声明一下所有资料仅用于学习,不得用于商业目的,否则后果自负。
转载请注明出处:http://blog.sina.com.cn/s/blog_5d3b177c0100cm1t.html
1 连接joins分为内连接inner joins和外连接outer joins
内连接:仅返回匹配的数据,最多可以有32个表同时进行内连接
外连接:返回所有匹配的数据和非匹配的数据,一次只能有两个表或视图进行外连接
迪卡尔积:返回表内所有可能的匹配情况。例如表A有10*20的数据,表B有30*40的数据,则两个表的迪卡尔积有(10+30)*(20+40)=40*60的数据
我们先建立两个数据集:
data march;