加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

Clementine>二项Logistic回归

(2012-11-20 21:31:14)
标签:

二项logistic回归

回归分析

高尔顿

前进法后退法进入法

分类: Clementine

    熟悉统计的同学对回归肯定不陌生。前面我们介绍正态分布(Normal Distribution)的时候也多少提到过回归。事实上,回归这一概念最早是在19世纪7、80年华由著名的生物统计学家高尔顿(著名生物学家达尔文的表弟,一译高尔登)提出来的。高尔顿在研究遗传现象时,发现母体偏高的子代有趋于普通高度的趋势;母体偏矮的子代有也有趋于普通高度的趋势。因此,高尔顿发现子代都有回归到普通水平的趋势。回归的提出,是统计学由描述性统计学阶断过渡到推断性统计阶断的标志之一。因此我们利用回归技术就能实现对未来的“预测”,这在统计学史上是一次巨大的飞跃。

   常见的简单线性回归能进行一般数值的预测,本文要介绍的Logistic回归则是对类别的推断。当目标变量含有两个选项(即我们常提到的二分问题)时,我们可以使用二项Logistic回归;当目标变量含有多个选项时,我们则可以使用多项Logistic回归。

  本案例假设的情景如下:

  假设某个电信服务提供商非常关心流失到竞争对手那里的客户数。如果可以使用服务使用数据预测有可能转移到其他提供商的客户,则可通过定制服务使用数据来尽可能多地保留这些客户。

  也就是我们常说的电信客户流失模型。

  首先导入源数据。源—Spss文件,我们导入所需要的数据Telo.sav,添加“类型”节点,在“类型”节点里,我们可以根据实际情况更改数据的类型。由0和1构成的数据一般是标志型数据,然后将目标变量churn的字段方向设置为“输出”,其它字段的方向设置为输入,这样我们就能通过其它字段来对目标变量Churn进行预测了。

  http://s5/mw690/70497dfatceed8cbe7d34&690

  际情况中,我们往往无法在事先就确知哪些测量字段对预测有意义,哪些没有意义。哪么,我们能不能把那些重要的——即具有特征性的——变量筛选出来呢?

  继续添加“特征选择”节点,在“特征选择”节点的对话框中保持默认状态,点击执行。然后浏览生成的模型。我们发现系统帮助我们筛选出了三个不适合的字希,原因为单个类别过大、缺失值过多和变异系数低于阈值。在左上角点击“生成”按钮,然后就可以得到经过筛选后的较理想的数据。

http://s7/mw690/70497dfatceeda28038b6&690

我们把新生成的含“重要字段”的节点添加到“类型”后面,然后我们进行数据审核。

添加“数据审核”节点,点击确定并打开数据审核的“质量”选项卡,我们审核一下数据的质量。在完成列中,我们发现只有Logtoll的完成率低于100%,为47.5%。这说明此字段存在较多缺失值 ,那么,如何处理这些缺失值呢?(在统计分析和数据挖掘中,对缺失值的处理非常有学问)http://s10/mw690/70497dfatceedb4ca6329&690
在Logtoll的缺失插补列中,点击选定“指定”,然后我们给这些缺失值指定值。在插补时间中,我们选择“空值与无效值”,在固定值中,我们选择“平均数”。这样就保证了新添加的数值不会返过来影响原来正确的数据。

http://s14/mw690/70497dfatceedc580866d&690
对数据进行完审核后,我们在数据审核对话框的左上角点击“生成缺失值超节点”,样本比例选择为50%,这样就生成了更为合适的数据。将新生成的缺失值超节点添加到过滤节点上,然后再继续添加“Logistic回归”节点,打开Logistic回归对话框。在“模型”面板中,我们选择过程为“二项式”,在二项式过程方法中,我们选择“前进法”;然后打开专家面板,注意在高级输出中,去掉显示迭代历史前的对勾。我们知道,回归的方法有前进法,后退法和进入法,虽然方法名称不一样,但本质上都要经过大量的迭代收敛,最终得到一个比较合适的参数或结果,这个迭代的过程是极为复杂的,所以我们选择不显示此迭代过程。点击确定。
http://s2/mw690/70497dfatceede42b4c21&690

http://s2/mw690/70497dfatceede5e675e1&690

点击确定后,新生成二项Logistic的模型,浏览模型,我们对模型进行理解。在“模型”面板中,我们可以查看各个预测变量对目标变量的贡献性;在“汇总”面板中,我们可以查看目标变量和预测变量。

http://s5/mw690/70497dfatceee32cdc3e4&690

http://s8/mw690/70497dfatceee32d67e17&690
下面查看“高级”面板,“案例处理摘要”显示的是数据的总体摘要;

http://s11/mw690/70497dfatceee3b65035a&690
在第一个分类表(a,b)中,步骤0指不添加任何字段,则预测“不”流失的客户百分比为100%,流失客户预测百分比为0;

http://s1/mw690/70497dfatceee3fd9cc20&690

在下图分类表中,我们发现当步骤1,即向模型中扔入一个变量时,预测“是流失”的百分比从0上升到29.9%,而预测“不流失”的下降到92%;依次类推。

http://s9/mw690/70497dfatceee493274a8&690
在步骤六时,预测“不流失”的百分比已经达到了90%,而“是流失”的百分比上升到47.1%,这是一个不错的结果。

http://s1/mw690/70497dfatceee56159ca0&690
下图为生成的预测模型,我们发现我们预测的L—Churn和实际预测值Churn拟合度非常好。

http://s6/mw690/70497dfatceee5faab855&690






 

 

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有