PROC GENMOD–Poisson Regression 简介

标签:
杂谈 |
分类: 数据挖掘理论 |
SAS里面可以使用PROC GENMOD來处理Poisson Regression(卜瓦松回归)。
Poisson regression主要使用在计次或计数资料分析上,属于Generalized linear model(广义线性模型)的一支,而且会令我们的Y(outcome, independent variable)背后的分布为Poisson分布。
特別是若用在列联表分析(contingency tables)时,又称为 Log-linear model。
Model简单的示意为 Log(E(Y|x))=a+bx
下面我们来看一个SAS help里面的范例
资料背景:这是Aitkin等人于1989年出版的书內提到的例子,是对于保险赔偿(insurance claims)资料建模型。
变量n是保险拥有人数量、变量c是保险赔偿的数量、变量car分作三组分別为small, medium与large、而保险拥有人的年龄分成两组(变量age)。
data insure;
500
1200 37
100
400
500
300
;
run;
proc genmod data=insure;
run;
我们所需要的指令如上述,其中class 后面是资料内的类别变量(car,age),
接着在model statement 后面先摆上想看的outcome变量(c,赔偿资料),
等号右边放入想调整个dependent variables(如此范例的car,age)。
最重要的是在model后面面的option设定,需要告诉SAS你假设的资料分布dist为?
以此为例是Poisson regression,因此输入关键字poisson;而link要设定poisson regression所对应的
log-linear model,因此关键字为log。接着还有offset要设定,offset是指针对每个观察值去设定的一个常数回归系数(constant
coefficient)。
结果如下
报表第一部分会先描述使用者所做的设定,包含所设定的背后分布(poisson)、link function(Log)、Outcome(c)以及offset变量,
最后是读入的观察值笔数,以及x变量们分组的说明。
http://r97846001.blog.ntu.edu.tw/files/2010/09/poi_output01.jpg
第二个部份是提供Criteria For Assessing Goodness of Fit 结果,
这些统计量有助于我们去跟其他model比较时,以挑选最适合的model使用。
从表內资讯来看,Deviance为2.8207、DF为2,所对应的卡方统计量查表会得到P=0.24,也即這个model还不错。
http://r97846001.blog.ntu.edu.tw/files/2010/09/poi_output02.jpg
报表第三部分是参数估计的结果,提供了回归系数、标准误、置信区间、Wald卡方值以及P值,
最后面有提供scale parameter。而PROC GENMOD提供使用者去设定scale parameter去
fit overdispersed
–
http://r97846001.blog.ntu.edu.tw/files/2010/09/poi_output03.jpg
Poisson 分布特性之一是他的平均值(mean)会等于會等於变异数(variance)。
在某些情況下会发现变异数大于平均值,就是所谓的overdispersion,表示這个model可能不适合这笔资料。
Overdispersion是一种发生在Binomial或Poisson regression资料的现象。
而这个dispersion是可以由deviance或Pearson’s chi-square除以他们的自由度,看是否为1。
如果大于1,会说笔资料有overdispersion的现象,反之若小于1則会称为underdispersed。
然而这样子的现象发生意味着,该笔资料似乎不适合这个model、或者是资料內有outlier,因此需要小心使用。