SAS处理数据三个步骤_夏天

http://blog.sina.com.cn/u/2110090862

首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

SAS处理数据三个步骤

(2011-04-24 06:02:40)

标签：

异常值

描述统计

变量

语句

茎叶图

分类：统计分析

转自科学网 http://bbs.sciencenet.cn/home.php?mod=space&uid=81938&do=blog&id=342038

http://www4.ncsu.edu/~fisik/index.html

第一步：Examining Data for Analysis

这是是数据处理最重要的部分，因为异常值会影响到处理结果并误导你。在使用复杂数据分析步之前，花点时间检查你的数据。

Getting to konw data

Proc contents data=mydata; run;

使用contents过程步可以让你了解数据，告诉你：数据集名和保存位置；数据创建时间和最后修改时间；变量数和类型；

Examination of numeric variables

Proc univariate data=mydata plot; var height; ID family; run;

本过程步提供了数值变量最完整的信息：检验变量分布；描述统计；显示极端观测；绘制分布图。 plot选项提供了茎叶图、盒子图和正态分布图，可视化检查数据。最重要的是可以提供Extreme Observations，方便排除异常值。

Examination of character/discrete variables

Proc freq data=mydata ; table block family/out=FreqTable nocol norow nocum nopercent; run;

离散变量检查语句，本人用的较少。

Data Summary

Proc means data=hbook.mydata mean std cv n maxdec=2; var Height diameter; run;

本语句提供数据汇总功能，在排除异常值后，以手里的数据做个全面的了解。

第二步：推断统计

经过第一步的预处理后，可以保证数据通过正态检验和齐次性检验，具体方法可以查阅原文转载的其它帖子。

analysis of variance

Proc Anova; Proc GLM; Proc MIXED

上面的三个语句功能各异，均用于进行方差分析。Proc MIXED国内用的较少，外文期刊常能见到。

Correlation and regression

Proc corr; Proc Reg; Proc nlin;

上述两个语句可以计算相关系数和回归方程，以及线性和非线性拟合，具体方法可参考本人的其它帖子。

第三步：Plotting

本人对SAS绘图只是简单的了解，在这里不作介绍。笔者习惯使用Sigmaplot进行科学制图。

上述三步可以满足大部分人的需求，切记第一步是不能省的。本来想写些自动生成三线表，自动在数据后添加±SD和abc的代码，这样使处理结果一步到位，省去重新整理的麻烦，但由于时间关系，暂不作打算了。

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report

前一篇：[转载]数据挖掘：异常值检测

后一篇：如何用SPSS探测及检验异常值

新浪BLOG意见反馈留言板　欢迎批评指正