加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

PROC GENMOD–Poisson Regression 简介

(2013-05-10 22:27:01)
标签:

杂谈

分类: 数据挖掘理论

SAS里面可以使用PROC GENMOD來处理Poisson Regression(卜瓦松回归)。

Poisson regression主要使用在计次或计数资料分析上,属于Generalized linear model(广义线性模型)的一支,而且会令我们的Y(outcome, independent variable)背后的分布为Poisson分布。

特別是若用在列联表分析(contingency tables)时,又称为 Log-linear model。

 

Model简单的示意为 Log(E(Y|x))=a+bx

下面我们来看一个SAS help里面的范例

资料背景:这是Aitkin等人于1989年出版的书內提到的例子,是对于保险赔偿(insurance claims)资料建模型。

变量n是保险拥有人数量、变量c是保险赔偿的数量、变量car分作三组分別为small, medium与large、而保险拥有人的年龄分成两组(变量age)。

 

data insure;
     input n c car $ age;
     ln=log(n);
     cards;
500  42  small  1
1200 37  medium 1
100   large   1
400  101 small  2
500  73  medium 2
300  14  large  2
;
run;
proc genmod data=insure;
     class car age;
     model c=car age /dist=poisson link=log offset=ln;
run;

我们所需要的指令如上述,其中class 面是资料内的类别变量(car,age),

接着在model statement面先摆上想看的outcome变量(c,赔偿资料),

等号右边放入想调整个dependent variables(如此范例的car,age)。

最重要的是在model面面的option设定,需要告诉SAS你假设的资料分布dist为?

以此为例是Poisson regression,因此输入关键字poisson;而link要设定poisson regression所对应的

log-linear model,因此关键字为log。接着还有offset要设定,offset是指针对每个观察值去设定的一个常数回归系数(constant coefficient)。 

结果如下

报表第一部分会先描述使用者所做的设定,包含所设定的背后分布(poisson)、link function(Log)、Outcome(c)以及offset变量,

最后是读入的观察值笔数,以及x变量们分组的说明。

http://r97846001.blog.ntu.edu.tw/files/2010/09/poi_output01.jpg

第二个部份是提供Criteria For Assessing Goodness of Fit 果,

这些统计量有助于我们去跟其他model比较时,以挑选最适合的model使用。

从表內资讯来看,Deviance为2.8207、DF为2,所对应的卡方统计量查表会得到P=0.24,也即這个model还不错。

 

http://r97846001.blog.ntu.edu.tw/files/2010/09/poi_output02.jpg

 

报表第三部分是参数估计的结果,提供了回归系数、标准误、置信区间、Wald卡方值以及P值,

最后面有提供scale parameter。而PROC GENMOD提供使用者去设定scale parameter去

fit overdispersed  poisson 与 binomial分布

– 

http://r97846001.blog.ntu.edu.tw/files/2010/09/poi_output03.jpg

 

Poisson 分布特性之一是他的平均值(mean)会等于會等於变异数(variance)。

在某些情況下会发现变异数大于平均值,就是所谓的overdispersion,表示這个model可能不适合这笔资料。

Overdispersion是一种发生在Binomial或Poisson regression资料的现象。

而这个dispersion是可以由deviance或Pearson’s chi-square除以他们的自由度,看是否为1。

如果大于1,会说笔资料有overdispersion的现象,反之若小于1則会称为underdispersed

然而这样子的现象发生意味着,该笔资料似乎不适合这个model、或者是资料內有outlier,因此需要小心使用。

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有