Clementine>二项Logistic回归_KingJames

http://blog.sina.com.cn/u/1883864570

首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

Clementine>二项Logistic回归

(2012-11-20 21:31:14)

标签：

二项logistic回归

回归分析

高尔顿

前进法后退法进入法

分类： Clementine

熟悉统计的同学对回归肯定不陌生。前面我们介绍正态分布（Normal Distribution）的时候也多少提到过回归。事实上，回归这一概念最早是在19世纪7、80年华由著名的生物统计学家高尔顿（著名生物学家达尔文的表弟，一译高尔登）提出来的。高尔顿在研究遗传现象时，发现母体偏高的子代有趋于普通高度的趋势；母体偏矮的子代有也有趋于普通高度的趋势。因此，高尔顿发现子代都有回归到普通水平的趋势。回归的提出，是统计学由描述性统计学阶断过渡到推断性统计阶断的标志之一。因此我们利用回归技术就能实现对未来的“预测”，这在统计学史上是一次巨大的飞跃。

常见的简单线性回归能进行一般数值的预测，本文要介绍的Logistic回归则是对类别的推断。当目标变量含有两个选项（即我们常提到的二分问题）时，我们可以使用二项Logistic回归；当目标变量含有多个选项时，我们则可以使用多项Logistic回归。

本案例假设的情景如下：

假设某个电信服务提供商非常关心流失到竞争对手那里的客户数。如果可以使用服务使用数据预测有可能转移到其他提供商的客户，则可通过定制服务使用数据来尽可能多地保留这些客户。

也就是我们常说的电信客户流失模型。

首先导入源数据。源—Spss文件，我们导入所需要的数据Telo.sav，添加“类型”节点，在“类型”节点里，我们可以根据实际情况更改数据的类型。由0和1构成的数据一般是标志型数据，然后将目标变量churn的字段方向设置为“输出”，其它字段的方向设置为输入，这样我们就能通过其它字段来对目标变量Churn进行预测了。

http://s5/mw690/70497dfatceed8cbe7d34&690

际情况中，我们往往无法在事先就确知哪些测量字段对预测有意义，哪些没有意义。哪么，我们能不能把那些重要的——即具有特征性的——变量筛选出来呢？

继续添加“特征选择”节点，在“特征选择”节点的对话框中保持默认状态，点击执行。然后浏览生成的模型。我们发现系统帮助我们筛选出了三个不适合的字希，原因为单个类别过大、缺失值过多和变异系数低于阈值。在左上角点击“生成”按钮，然后就可以得到经过筛选后的较理想的数据。

http://s7/mw690/70497dfatceeda28038b6&690

我们把新生成的含“重要字段”的节点添加到“类型”后面，然后我们进行数据审核。

添加“数据审核”节点，点击确定并打开数据审核的“质量”选项卡，我们审核一下数据的质量。在完成列中，我们发现只有Logtoll的完成率低于100%，为47.5%。这说明此字段存在较多缺失值，那么，如何处理这些缺失值呢？（在统计分析和数据挖掘中，对缺失值的处理非常有学问）http://s10/mw690/70497dfatceedb4ca6329&690
在Logtoll的缺失插补列中，点击选定“指定”，然后我们给这些缺失值指定值。在插补时间中，我们选择“空值与无效值”，在固定值中，我们选择“平均数”。这样就保证了新添加的数值不会返过来影响原来正确的数据。

http://s14/mw690/70497dfatceedc580866d&690
对数据进行完审核后，我们在数据审核对话框的左上角点击“生成缺失值超节点”，样本比例选择为50%，这样就生成了更为合适的数据。将新生成的缺失值超节点添加到过滤节点上，然后再继续添加“Logistic回归”节点，打开Logistic回归对话框。在“模型”面板中，我们选择过程为“二项式”，在二项式过程方法中，我们选择“前进法”；然后打开专家面板，注意在高级输出中，去掉显示迭代历史前的对勾。我们知道，回归的方法有前进法，后退法和进入法，虽然方法名称不一样，但本质上都要经过大量的迭代收敛，最终得到一个比较合适的参数或结果，这个迭代的过程是极为复杂的，所以我们选择不显示此迭代过程。点击确定。
http://s2/mw690/70497dfatceede42b4c21&690

http://s2/mw690/70497dfatceede5e675e1&690

点击确定后，新生成二项Logistic的模型，浏览模型，我们对模型进行理解。在“模型”面板中，我们可以查看各个预测变量对目标变量的贡献性；在“汇总”面板中，我们可以查看目标变量和预测变量。

http://s5/mw690/70497dfatceee32cdc3e4&690

http://s8/mw690/70497dfatceee32d67e17&690
下面查看“高级”面板，“案例处理摘要”显示的是数据的总体摘要；

http://s11/mw690/70497dfatceee3b65035a&690
在第一个分类表（a,b）中，步骤0指不添加任何字段，则预测“不”流失的客户百分比为100%，流失客户预测百分比为0；

http://s1/mw690/70497dfatceee3fd9cc20&690

在下图分类表中，我们发现当步骤1，即向模型中扔入一个变量时，预测“是流失”的百分比从0上升到29.9%，而预测“不流失”的下降到92%；依次类推。

http://s9/mw690/70497dfatceee493274a8&690
在步骤六时，预测“不流失”的百分比已经达到了90%，而“是流失”的百分比上升到47.1%，这是一个不错的结果。

http://s1/mw690/70497dfatceee56159ca0&690
下图为生成的预测模型，我们发现我们预测的L—Churn和实际预测值Churn拟合度非常好。

http://s6/mw690/70497dfatceee5faab855&690

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report

前一篇：Normal Distribution>正态分布的前世今生【整理版】

后一篇：Clementine>数据审核

新浪BLOG意见反馈留言板　欢迎批评指正