加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

SAS中的univariate单变量过程

(2014-07-25 14:24:37)
标签:

sas

在SAS系统中,除了可以使用MEANS过程执行描述性统计分析外,也可用UNIVARIATE过程进行描述性统计分析。UNIVARIATE过程的基本功能如下:

描述性统计分析,涉及偏度、峰度、分位数的计算,频率表的绘制和变量极端值分析等。

常用统计图形的绘制,包括直方图、概率分布累积图和Q-Q图等。

数据的正态性检验。

在SAS系统中,UNIVARIATE单变量过程的基本格式为:

  1. PROC UNIVARIATE [选项]   
  2. BY变量列表;   
  3. CDFPLOT变量列表 [选项];   
  4. CLASS 变量列表;   
  5. FREQ 变量;   
  6. HISTOGRAM 变量列表 [选项];   
  7. ID 变量;   
  8. OUTPUT [out=输出数据集名] [统计量关键字=变量名];  
  9. QQPLOT 变量列表 [选项];   
  10. VAR 变量列表;   
  11. WEIGHT 变量;  

其中:

PROC语句用于指定使用UNIVARIATE过程进行描述性统计分析,同时,在该语句后常用的选项介绍如下:

DATA=数据集名:指定需要分析的数据集。

PLOT或PLOTS:绘制茎叶图、盒式图和正态概率图。

FREQ:生成频数分布表。

NORMAL:对输入变量进行正态性检验。

BY语句用于指定分组的变量,在组内对数据进行描述性分析。

CDFPLOT语句用于控制概率分布累积图的绘制。

CLASS语句的用法基本同BY语句,用于指定分组的变量。

FREQ语句用于指定代表观测频数的变量。

HISTOGRAM语句用于控制直方图的绘制。

ID语句用于指定数据集中识别观测的变量。

OUTPUT语句用于建立一个新的数据表,存放分析的结果。

QQPLOT语句用于控制Q-Q图的绘制。

VAR语句用于指定UNIVARIATE过程分析的变量。

WEIGHT语句用于指定代表观测权重的变量。

下面利用UNIVARIATE过程对本章例4.1中表4.2的各型号汽油污染程度的指标数据,进行描述性统计分析,注意体会SAS系统中这两种过程在描述性统计分析上的差异。

【例4.2】 UNIVARIATE过程的SAS实现。

下面的程序利用UNIVARIATE过程实现描述性统计分析。

  1. proc univariate data=ww.test4_1;  
  2. by type;                                              
  3. var sulfur arene benzene pb;                      
  4. run;  

执行上述程序,UNIVARIATE过程会将所有的描述性统计分析的结果输出到结果窗口。本例中按照汽油型号分组,对每种型号的汽油的各变量都进行了描述性统计分析,结果包括矩、位置和变异性的基本测度、位置检验、分位数和极端观测,其结果的目录如图4.3所示。

同时,以A汽油的含硫量的结果为例展示UNIVARIATE过程的基本的描述性统计分析结果,如图4.4所示。

http://images.51cto.com/files/uploadimg/20130307/1624330.jpg 
图4.3  UNIVARIATE过程结果目录树
http://images.51cto.com/files/uploadimg/20130307/1624331.jpg 
图4.4  UNIVARIATE过程的描述性统计分析结果

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有