SAS JMP展现多维动态气泡图
加载中…
加载中…
标签:
杂谈 |
标签:
杂谈 |
标签:
杂谈 |
标签:
杂谈 |
一 、前提条件:
1.变量之间不存在多重共线性;
2.变量服从正态分布;
二、原理:
第一步,预聚类、准聚类过程:
构建聚类特征树(CFT),分成很多子类。
开始时,把某个观测量放在树的根节点处,它记录有该观测量的变量信息,然后根据指定的距离测度作为相似性依据,使每个后续观测量根据它与已有节点的相似性,放到最相似的节点中,如果没有找到某个相似性的节点,就为它形成一个新的节点。
第二步,正式聚类:
将以第一步完成的预聚类作为输入,对之使用分层聚类的方法进行再聚类(对数似然函数)。
每一个阶段,利用施瓦兹贝叶斯信息准则(BIC)评价现有分类是否适合现有数据,
并在最后给出符合准则的分类方案。
三、优点:
1.海量数据处理;
2.自动标准化数据;
3.能够处理分类变量和连续变量的混合数据;
4.可自动丢弃异常值或者将异常值归入最近的类。
5.可自动确定或者根据业务需要人工指定分类数目;
标签:
杂谈 |
决策树(decision tree)一般都是自上而下的来生成的。每个决策或事件(即自然状态)都可能引出两个或多个事件,导致不同的结果,把这种决策分支画成图形很像一棵树的枝干,故称决策树。
优点:
1) 可以生成可以理解的规则;
2) 计算量相对来说不是很大;
3) 可以处理连续和种类字段;
4) 决策树可以清晰的显示哪些字段比较重要。
缺点:
1) 对连续性的字段比较难预测;
2) 对有时间顺序的数据,需要很多预处理的工作;
3) 当类别太多时,错误可能就会增加的比较快;
(racoon)
一、
优点:
1)面对数据遗漏和输入字段很多的问题时非常稳健;
2)通常不需要很长的训练次数进行估计;
3)比一些其他类型的模型易于理解,模型推出的规则有非常直观的解释;
4)允许进行多次多于两个子组的分割。目标字段必须为分类字段。
二、classification and regression tree(C&RT):
&nb
如何利用皮尔森的卡方检定来检验一组样本里两个类别变量的关系 即这两个变量到底是独立无关或者是互相有关连的? 举例说
我们想知道加工出口区的工人对妇女解放及独身子女政策这两件事的看法是否互相有关连? 我们可抽样调查两百名工人 问他们两个问题 问题一
您是否赞成妇女解放运动? (是 否) 问题二 您是否认为取消独身子女政策? (应该不应该) 请读者注意 这一类型的统计检定
一般均无法预知到底有多少人会赞成 (或不赞成)
将由抽样调查的结果获得 总人数 (N=200)
独身子女政策
应该保留
独身子女政策应
该取消
总数
赞成妇解 98 22 120
不赞成妇解 0 80 80
总数 98 102 200
此例的虚无假设是 工人对这两件事情的看法是无关连的 现用皮尔森 卡方检定来决定是否应接受或拒绝此虚无假设。
DATA WOMEN;
AGREE YES 98
AGREE NO&nbs
四个高中班参与实验 两班是从重点学校中选出 另两班则由非重点学校中选出
其实验的结果可能如下所示
样 本学校 教 学 法 上榜人数 落榜人数 总数
1 非重点 实验班 30 20 50
2 非重点 普通班 23 27 50
3 重点 实验班 29 21 50
4 重点 普通班 24 26 50
总数 106 94 200
在这个教学法研究中 我们所提出的问题比以前更详细 即 这四种班级学生的上榜人数是否有显著的不同?
我们的虚无假设是这四种班级学生的上榜人数是相同的。同时可以预测 如果四班上榜人数有显著的不同 可能有下列四种原因
A. 重点 非重点学校之别
B. 教学法之别
C. 学校与教学法的交互效果
D. 学校 教学法以及这二者之间的交互因素
DATA A;
PRIVATE EXP
PRIVATE CTRL
分类回归树
优点
(1)可自动忽略对目标变量没有贡献的属性变量,也为判断属性变量的重要性,减少变量数
SAS 9.2 新增的过程步 proc sgplot提供了强大的绘图功能。
几个简单的例子:
run;
正则表达式基础
正则表达式由一些普通字符和一些元字符(metacharacters)组成。普通字符包括大小写的字母和数字,而元字符则具有特殊的含义(详细内容查help)。
一个正则表达式,就是用某种模式去匹配一类字符串的一个公式。
很多人因为它们看上去比较古怪而且复杂所以不敢去使用,这些复杂的表达式其实写起来还是相当简单的,而且,一旦你弄懂它们,你就能把数小时辛苦而且易错的文本处理工作压缩在几分钟(甚至几秒钟)内完成。
1、PRXMATCH (regular-expression_r_r_r_r-id | perl-regular-expression_r_r_r_r, source)
data _null_;