Logistic 回归（之二）：回归模型建立_孙闯denny

http://blog.sina.com.cn/u/5273006887

首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

Logistic 回归（之二）：回归模型建立

(2015-06-16 14:04:43)

标签：

logistic回归

统计学

相关系数

上一部分，我们谈了对Logistic回归的直观理解。就是将两分类的结局变量用概率的形式重构，之后通过logit函数将概率转化成线性结构，通过线性拟合的方式来构造回归方程。

今天，我们在已经对Logistic回归有初步理解的前提下，谈一下如何构造一个比较优秀的Logistic回归模型。

首先，对于回归陌生的同学，可能要先介绍一下多重回归的概念。简单回归呢，就像上次图片中的线性回归那样，将众多的散点拟合成一条直线。多重回归呢，就是把自变量变成多个，在一个高维空间中拟合这条直线。

下面，我们来看一下，为何要做多重回归？单变量回归存在什么问题呢？

http://s8/mw690/005KQZYbgy6T6LJaqk7e7&690回归（之二）：回归模型建立" TITLE="Logistic 回归（之二）：回归模型建立" />

我们说，把众多盲者的信息整合到一起，就可以更好的拟合一头大象，所以，如果我们把性别年龄症状体征一起放进回归模型，就可以更好的来表达一种疾病状态。

那我们说更好地拟合，更好的表达，有什么评价指标，说明其好与不好呢？这就是我们常说的R方，决定系数。

http://s11/mw690/005KQZYbgy6T6LWUJcKca&690回归（之二）：回归模型建立" TITLE="Logistic 回归（之二）：回归模型建立" />

像上面盲人摸象的例子，把众多盲者摸象的结论合并起来，是不是就会八九不离十啊？（R方为0.8~0.9）。

除了更多的解释我们的因变量，其实多重回归还有一个更重要的特征，混杂校正！那么什么是混杂校正呢？我们来看一个小孩身高与树的高度的例子：

http://s5/mw690/005KQZYbgy6T6M83ZFq64&690回归（之二）：回归模型建立" TITLE="Logistic 回归（之二）：回归模型建立" />

时间可能会完美地替代掉树高这个因素，也可能只有在共存时才能取得一个更大的R方，但是呢，我们常常会需要根据专业知识，进一步地对变量进行取舍。如果你已经很清楚树高只是一个混杂因素，那么，即使只用时间变量会取得一个稍小的R方，也不应当保留树高这一因素。

那么如果不了解背后的混杂机制，单纯在统计模型中，是如何校正这多变量之间的关系呢？

我们来看一个例子，例子中，把芦菔根牙(萝卜一样的牙)也补充入模型之后，直接抢占掉了绳尾的位置。那如果把绳尾看成混杂因素的话，芦菔根牙就很好的校正了这一混杂。

但这样的校正真的靠谱嘛？

http://s8/mw690/005KQZYbgy6T6MbszkP67&690回归（之二）：回归模型建立" TITLE="Logistic 回归（之二）：回归模型建立" />

从表象上看，我们看到了回归模型对变量的选择，那么，背后是如何的一个选择过程，模型的参数又是如何估计出来的呢？

在Logistic回归中，我们采用了最大似然法的估计方法，与普通线性回归的最小二乘法有一定的区别。但具体的区别，不是本文探讨的范畴，我们的统计软件自会在后台帮我们实现掉，对此有兴趣的朋友可以查阅相关资料。

http://s6/mw690/005KQZYbgy6T6MfDmbHe5&690回归（之二）：回归模型建立" TITLE="Logistic 回归（之二）：回归模型建立" />

刚才我们已经讲过R方，伪R方。除此之外，我们还有很多的模型评价指标，用来评价模型的好坏。

这样，我们就有了全模型的评价指标，和单变量的评价指标，后者就是大家最最常用到的P值！

另外注意一点，我们使用这些指标进行比较时，一般都只对相似的模型进行比较，如果两个模型间变量数、变量类别差别太多，往往就失去了比较的意义。

http://s9/mw690/005KQZYbgy6T6Mnjc8g08&690回归（之二）：回归模型建立" TITLE="Logistic 回归（之二）：回归模型建立" />

下面，我们来探讨模型构建中常常会遇到的几个细节问题：

首先，就是多重共线性：

http://s8/mw690/005KQZYbgy6T6MvAhaDa7&690回归（之二）：回归模型建立" TITLE="Logistic 回归（之二）：回归模型建立" />

其实无论存在不存在多重共线性，只要我们构建模型稍有复杂，都会使用一个变量筛选的机制。就是我们常说的，逐步法。

变量筛选，大概就是一个去糟取精的过程。

http://s15/mw690/005KQZYbgy6T6MDXnNY0e&690回归（之二）：回归模型建立" TITLE="Logistic 回归（之二）：回归模型建立" />

特别值得强调的是，我们的变量筛选不能够完全依赖统计软件，完全根据P值，我们一定要进行充分的文献回顾，根据自己的专业知识来决定最后的模型。

有时候，专业知识会与统计模型不太相一致，此时，我们就要通过一种手动调整的方式，来确定最终的模型。

http://s16/mw690/005KQZYbgy6T6MHcjfx5f&690回归（之二）：回归模型建立" TITLE="Logistic 回归（之二）：回归模型建立" />

另一个细节，就是交互作用：

http://s3/mw690/005KQZYbgy6T6MQ45N012&690回归（之二）：回归模型建立" TITLE="Logistic 回归（之二）：回归模型建立" />

其次，当我们的自变量里存在无序分类变量时，我们就要使用哑变量的方式来处理这些变量。

http://s5/mw690/005KQZYbgy6T6MYmjaIf4&690回归（之二）：回归模型建立" TITLE="Logistic 回归（之二）：回归模型建立" />
还有另一点，就是不少人关心的样本量问题：

其实大家记好了，在经费最大允许的条件下，在合理抽样的基础上，样本量越多越好！重要的事情说3遍~~~

http://s11/mw690/005KQZYbgy6T6PUeF189a&690回归（之二）：回归模型建立" TITLE="Logistic 回归（之二）：回归模型建立" />

回归模型建立这一部分，暂时就这些内容。

觉得不错的朋友们记得点赞转发啊~

后续章节将陆续上传，敬请期待~

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report

前一篇：Logistic 回归（之一）：从入门到进阶

后一篇：用统计的眼光看高考，有什么不一样？

新浪BLOG意见反馈留言板　欢迎批评指正