加载中…
个人资料
SAS_Miner
SAS_Miner
  • 博客等级:
  • 博客积分:0
  • 博客访问:140,733
  • 关注人气:382
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
分类
图片播放器
友情链接

SAS-----SUGI

Global SAS fans' papers

SAS中文论坛

China SAS Forum

SASOR

很多SAS高手

ITPUB

IT专业论坛

人大经济论坛

资源丰富的统计网站

统计之都

国内优秀的统计论坛

IDMer

数据挖掘资深专家

yihuixie

统计高手

杭州-小轶

统计爱好者

寝室长

生物信息方向

大白

同寝兄弟!!!

小小师姐,才女!!!

留言
加载中…
评论
加载中…
博文
标签:

杂谈

SAS JMP展现多维动态气泡图 (详见SAS官方网站) 

 



阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
标签:

杂谈

清晰展现SNS关系一直没找到很好的软件, SAS EM的效果一般,不过可以分析海量数据;开源软件的效果还不错

 

 





 

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
标签:

杂谈

随着EM版本的更新,在界面上优化了很多,经常使用的路径分析节点提供了更多的功能,对用行为的呈现更加清晰:



阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
标签:

杂谈

一 、前提条件:

1.变量之间不存在多重共线性;
2.变量服从正态分布;

二、原理:

第一步,预聚类、准聚类过程:
构建聚类特征树(CFT),分成很多子类。
开始时,把某个观测量放在树的根节点处,它记录有该观测量的变量信息,然后根据指定的距离测度作为相似性依据,使每个后续观测量根据它与已有节点的相似性,放到最相似的节点中,如果没有找到某个相似性的节点,就为它形成一个新的节点。
第二步,正式聚类:
将以第一步完成的预聚类作为输入,对之使用分层聚类的方法进行再聚类(对数似然函数)。
每一个阶段,利用施瓦兹贝叶斯信息准则(BIC)评价现有分类是否适合现有数据,
并在最后给出符合准则的分类方案。

三、优点:

1.海量数据处理;
2.自动标准化数据;
3.能够处理分类变量和连续变量的混合数据;
4.可自动丢弃异常值或者将异常值归入最近的类。
5.可自动确定或者根据业务需要人工指定分类数目;

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
标签:

杂谈

决策树(decision tree)一般都是自上而下的来生成的。每个决策或事件(即自然状态)都可能引出两个或多个事件,导致不同的结果,把这种决策分支画成图形很像一棵树的枝干,故称决策树。

优点:
  1) 可以生成可以理解的规则;
  2) 计算量相对来说不是很大;
  3) 可以处理连续和种类字段;
  4) 决策树可以清晰的显示哪些字段比较重要。
缺点:
  1) 对连续性的字段比较难预测;
  2) 对有时间顺序的数据,需要很多预处理的工作;
  3) 当类别太多时,错误可能就会增加的比较快;
    4) 一般的算法分类的时候,只是根据一个字段来分类。

(racoon)

一、 C 5.0算法  执行效率和内存使用改进、适用大数据集
优点:
1)面对数据遗漏和输入字段很多的问题时非常稳健;
2)通常不需要很长的训练次数进行估计;
3)比一些其他类型的模型易于理解,模型推出的规则有非常直观的解释;
4)允许进行多次多于两个子组的分割。目标字段必须为分类字段。


二、classification and regression tree(C&RT):

&nb

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
(2009-11-11 10:42)
标签:

sas

杂谈

分类: 统计

如何利用皮尔森的卡方检定来检验一组样本里两个类别变量的关系 即这两个变量到底是独立无关或者是互相有关连的? 举例说 我们想知道加工出口区的工人对妇女解放及独身子女政策这两件事的看法是否互相有关连? 我们可抽样调查两百名工人 问他们两个问题 问题一 您是否赞成妇女解放运动? (是 否) 问题二 您是否认为取消独身子女政策? (应该不应该) 请读者注意 这一类型的统计检定
一般均无法预知到底有多少人会赞成 (或不赞成)  妇解运动或独身子女政策所以边际频率
将由抽样调查的结果获得 总人数 (N=200)  是唯一一个可事先控制的数据假设获得的数据如下表所列
独身子女政策
应该保留
独身子女政策应
该取消
总数
赞成妇解 98 22 120
不赞成妇解 0 80 80
总数 98 102 200
此例的虚无假设是 工人对这两件事情的看法是无关连的 现用皮尔森 卡方检定来决定是否应接受或拒绝此虚无假设。

 

DATA WOMEN;
     INPUT LIBERTY $ ONECHILD $ COUNT;
     CARDS;
AGREE YES 98
AGREE NO&nbs

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
标签:

杂谈

分类: 统计

四个高中班参与实验 两班是从重点学校中选出 另两班则由非重点学校中选出
其实验的结果可能如下所示
样 本学校 教 学 法 上榜人数 落榜人数 总数
1 非重点 实验班 30 20 50
2 非重点 普通班 23 27 50
3 重点 实验班 29 21 50
4 重点 普通班 24 26 50
总数 106 94 200


在这个教学法研究中 我们所提出的问题比以前更详细 即 这四种班级学生的上榜人数是否有显著的不同? 我们的虚无假设是这四种班级学生的上榜人数是相同的。同时可以预测 如果四班上榜人数有显著的不同 可能有下列四种原因
A. 重点 非重点学校之别
B. 教学法之别
C. 学校与教学法的交互效果
D. 学校 教学法以及这二者之间的交互因素
 (最后的这种解释法又称为饱和或满秩的模型 因它把所有可能的因素都考虑进去了!)

 

DATA A;
     INPUT SCHOOL $ METHOD $ PASS FAIL;
     CARDS;
PRIVATE EXP     30   20
PRIVATE CTRL    23   27

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
标签:

杂谈

分类: DM

分类回归树  classification and regression tree(C&RT)  racoon

优点
(1)可自动忽略对目标变量没有贡献的属性变量,也为判断属性变量的重要性,减少变量数

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
标签:

杂谈

分类: SAS

SAS 9.2 新增的过程步 proc sgplot提供了强大的绘图功能。

几个简单的例子:

 

 

 

 proc sgplot data=sashelp.stocks
  (where=(date >= '01jan2000'd and stock = 'IBM'));
  title 'Stock Trend'; 
  series x=date y=close;
  series x=date y=low;
  series x=date y=high;
run;

 

 

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
标签:

sas

杂谈

分类: SAS

正则表达式基础

正则表达式由一些普通字符和一些元字符(metacharacters)组成。普通字符包括大小写的字母和数字,而元字符则具有特殊的含义(详细内容查help)。

一个正则表达式,就是用某种模式去匹配一类字符串的一个公式。

很多人因为它们看上去比较古怪而且复杂所以不敢去使用,这些复杂的表达式其实写起来还是相当简单的,而且,一旦你弄懂它们,你就能把数小时辛苦而且易错的文本处理工作压缩在几分钟(甚至几秒钟)内完成。

 

1、PRXMATCH (regular-expression_r_r_r_r-id | perl-regular-expression_r_r_r_r, source)

data _null_;

   position=prxmatch('/world/', 'Hello world!');

   put position=;

 

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
  

新浪BLOG意见反馈留言板 不良信息反馈 电话:4006900000 提示音后按1键(按当地市话标准计费) 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

新浪公司 版权所有