Clementine>二项Logistic回归

标签:
二项logistic回归回归分析高尔顿前进法后退法进入法 |
分类: Clementine |
http://s7/mw690/70497dfatceeda28038b6&690
我们把新生成的含“重要字段”的节点添加到“类型”后面,然后我们进行数据审核。
添加“数据审核”节点,点击确定并打开数据审核的“质量”选项卡,我们审核一下数据的质量。在完成列中,我们发现只有Logtoll的完成率低于100%,为47.5%。这说明此字段存在较多缺失值
,那么,如何处理这些缺失值呢?(在统计分析和数据挖掘中,对缺失值的处理非常有学问)http://s10/mw690/70497dfatceedb4ca6329&690
在Logtoll的缺失插补列中,点击选定“指定”,然后我们给这些缺失值指定值。在插补时间中,我们选择“空值与无效值”,在固定值中,我们选择“平均数”。这样就保证了新添加的数值不会返过来影响原来正确的数据。
http://s14/mw690/70497dfatceedc580866d&690
对数据进行完审核后,我们在数据审核对话框的左上角点击“生成缺失值超节点”,样本比例选择为50%,这样就生成了更为合适的数据。将新生成的缺失值超节点添加到过滤节点上,然后再继续添加“Logistic回归”节点,打开Logistic回归对话框。在“模型”面板中,我们选择过程为“二项式”,在二项式过程方法中,我们选择“前进法”;然后打开专家面板,注意在高级输出中,去掉显示迭代历史前的对勾。我们知道,回归的方法有前进法,后退法和进入法,虽然方法名称不一样,但本质上都要经过大量的迭代收敛,最终得到一个比较合适的参数或结果,这个迭代的过程是极为复杂的,所以我们选择不显示此迭代过程。点击确定。
http://s2/mw690/70497dfatceede42b4c21&690
http://s2/mw690/70497dfatceede5e675e1&690
点击确定后,新生成二项Logistic的模型,浏览模型,我们对模型进行理解。在“模型”面板中,我们可以查看各个预测变量对目标变量的贡献性;在“汇总”面板中,我们可以查看目标变量和预测变量。
http://s5/mw690/70497dfatceee32cdc3e4&690
http://s8/mw690/70497dfatceee32d67e17&690
下面查看“高级”面板,“案例处理摘要”显示的是数据的总体摘要;
http://s11/mw690/70497dfatceee3b65035a&690
在第一个分类表(a,b)中,步骤0指不添加任何字段,则预测“不”流失的客户百分比为100%,流失客户预测百分比为0;
http://s1/mw690/70497dfatceee3fd9cc20&690
在下图分类表中,我们发现当步骤1,即向模型中扔入一个变量时,预测“是流失”的百分比从0上升到29.9%,而预测“不流失”的下降到92%;依次类推。
http://s9/mw690/70497dfatceee493274a8&690
在步骤六时,预测“不流失”的百分比已经达到了90%,而“是流失”的百分比上升到47.1%,这是一个不错的结果。
http://s1/mw690/70497dfatceee56159ca0&690
下图为生成的预测模型,我们发现我们预测的L—Churn和实际预测值Churn拟合度非常好。
http://s6/mw690/70497dfatceee5faab855&690