Logistic regression （逻辑回归）概述_招展如桦

http://blog.sina.com.cn/u/2299292323

首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

Logistic regression （逻辑回归）概述

(2012-11-29 20:27:02)

标签：

logistic

regression

it

分类： MachineLearning

Logistic regression （逻辑回归）概述

Logistic regression （逻辑回归）是当前业界比较常用的机器学习方法，用于估计某种事物的可能性。比如某用户购买某商品的可能性，某病人患有某种疾病的可能性，以及某广告被用户点击的可能性等。（注意这里是：“可能性”，而非数学上的“概率”，logisitc回归的结果并非数学定义中的概率值，不可以直接当做概率值来用。该结果往往用于和其他特征值加权求和，而非直接相乘）

那么它究竟是什么样的一个东西，又有哪些适用情况和不适用情况呢？

一、官方定义：

http://hiphotos.baidu.com/hehehehello/pic/item/b81c5cb56260e19137d3ca76.jpgregression （逻辑回归）概述" TITLE="Logistic regression （逻辑回归）概述" />，

http://hiphotos.baidu.com/hehehehello/pic/item/70c8710982bc58f02fddd476.jpgregression （逻辑回归）概述" TITLE="Logistic regression （逻辑回归）概述" />

http://bits.wikimedia.org/skins-1.17/common/images/magnify-clip.pngregression （逻辑回归）概述" TITLE="Logistic regression （逻辑回归）概述" /> Figure 1. The logistic function, with zon the horizontal axis and ƒ(z) on the vertical axis

逻辑回归是一个学习f:X− > Y 方程或者P(Y|X)的方法，这里Y是离散取值的，X= < X1,X2...,Xn > 是任意一个向量其中每个变量离散或者连续取值。

二、我的解释

只看公式太痛苦了，分开说一下就好。Logistic Regression 有三个主要组成部分：回归、线性回归、Logsitic方程。

1）回归

Logistic regression是线性回归的一种，线性回归是一种回归。那么回归是虾米呢？

回归其实就是对已知公式的未知参数进行估计。比如已知公式是y = a*x + b，未知参数是a和b。我们现在有很多真实的(x,y)数据（训练样本），回归就是利用这些数据对a和b的取值去自动估计。估计的方法大家可以简单的理解为，在给定训练样本点和已知的公式后，对于一个或多个未知参数，机器会自动枚举参数的所有可能取值（对于多个参数要枚举它们的不同组合），直到找到那个最符合样本点分布的参数（或参数组合）。（当然，实际运算有一些优化算法，肯定不会去枚举的）

注意，回归的前提是公式已知，否则回归无法进行。而现实生活中哪里有已知的公式啊（G=m*g 也是牛顿被苹果砸了脑袋之后碰巧想出来的不是？哈哈），因此回归中的公式基本都是数据分析人员通过看大量数据后猜测的（其实大多数是拍脑袋想出来的，嗯...）。根据这些公式的不同，回归分为线性回归和非线性回归。线性回归中公式都是“一次”的（一元一次方程，二元一次方程...），而非线性则可以有各种形式（N元N次方程，log方程等等）。具体的例子在线性回归中介绍吧。

2）线性回归

直接来一个最简单的一元变量的例子：假设要找一个y和x之间的规律，其中x是鞋子价钱，y是鞋子的销售量。（为什么要找这个规律呢？这样的话可以帮助定价来赚更多的钱嘛，小学的应用题经常做的呵呵）。已知一些往年的销售数据（x0,y0), (x1, y1), ... (xn, yn)做样本集, 并假设它们满足线性关系：y = a*x + b （其中a,b的具体取值还不确定），线性回归即根据往年数据找出最佳的a, b取值，使 y = a * x + b 在所有样本集上误差最小。

也许你会觉得---晕！这么简单! 这需要哪门子的回归呀！我自己在草纸上画个xy坐标系，点几个点就能画出来！（好吧，我承认我们初中时都被这样的画图题折磨过）。事实上一元变量的确很直观，但如果是多元就难以直观的看出来了。比如说除了鞋子的价格外，鞋子的质量，广告的投入，店铺所在街区的人流量都会影响销量，我们想得到这样的公式：sell = a*x + b*y + c*z + d*zz + e。这个时候画图就画不出来了，规律也十分难找，那么交给线性回归去做就好。（线性回归具体是怎么做的请参考相应文献，都是一些数学公式，对程序员来说，我们就把它当成一条程序命令就好）。这就是线性回归算法的价值。

需要注意的是，这里线性回归能过获得好效果的前提是y = a*x + b 至少从总体上是有道理的（因为我们认为鞋子越贵，卖的数量越少，越便宜卖的越多。另外鞋子质量、广告投入、客流量等都有类似规律）；但并不是所有类型的变量都适合用线性回归，比如说x不是鞋子的价格，而是鞋子的尺码），那么无论回归出什么样的（a,b），错误率都会极高（因为事实上尺码太大或尺码太小都会减少销量）。总之：如果我们的公式假设是错的，任何回归都得不到好结果。

3）Logistic方程

上面我们的sell是一个具体的实数值，然而很多情况下，我们需要回归产生一个类似概率值的0~1之间的数值（比如某一双鞋子今天能否卖出去？或者某一个广告能否被用户点击? 我们希望得到这个数值来帮助决策鞋子上不上架，以及广告展不展示）。这个数值必须是0~1之间，但sell显然不满足这个区间要求。于是引入了Logistic方程，来做归一化。这里再次说明，该数值并不是数学中定义的概率值。那么既然得到的并不是概率值，为什么我们还要费这个劲把数值归一化为0~1之间呢？归一化的好处在于数值具备可比性和收敛的边界，这样当你在其上继续运算时（比如你不仅仅是关心鞋子的销量，而是要对鞋子卖出的可能、当地治安情况、当地运输成本等多个要素之间加权求和，用综合的加和结果决策是否在此地开鞋店时），归一化能够保证此次得到的结果不会因为边界太大/太小导致覆盖其他feature 或被其他feature覆盖。（举个极端的例子，如果鞋子销量最低为100，但最好时能卖无限多个，而当地治安状况是用0~1之间的数值表述的，如果两者直接求和治安状况就完全被忽略了）这是用logistic回归而非直接线性回归的主要原因。到了这里，也许你已经开始意识到，没错，Logistic Regression 就是一个被logistic方程归一化后的线性回归，仅此而已。

至于所以用logistic而不用其它，是因为这种归一化的方法往往比较合理（人家都说自己叫logistic了嘛呵呵），能够打压过大和过小的结果（往往是噪音），以保证主流的结果不至于被忽视。具体的公式及图形见本文的一、官方定义部分。其中f(X)就是我们上面例子中的sell的实数值了，而y就是得到的0~1之间的卖出可能性数值了。（本段 “可能性” 并非 “概率” ，感谢zjtchow同学在回复中指出）

三、Logistic Regression的适用性

1）可用于概率预测，也可用于分类。

并不是所有的机器学习方法都可以做可能性概率预测（比如SVM就不行，它只能得到1或者-1）。可能性预测的好处是结果又可比性：比如我们得到不同广告被点击的可能性后，就可以展现点击可能性最大的N个。这样以来，哪怕得到的可能性都很高，或者可能性都很低，我们都能取最优的topN。当用于分类问题时，仅需要设定一个阈值即可，可能性高于阈值是一类，低于阈值是另一类。

2）仅能用于线性问题

只有在feature和target是线性关系时，才能用Logistic Regression（不像SVM那样可以应对非线性问题）。这有两点指导意义，一方面当预先知道模型非线性时，果断不使用Logistic Regression；另一方面，在使用Logistic Regression时注意选择和target呈线性关系的feature。

3）各feature之间不需要满足条件独立假设，但各个feature的贡献是独立计算的。

逻辑回归不像朴素贝叶斯一样需要满足条件独立假设（因为它没有求后验概率）。但每个feature的贡献是独立计算的，即LR是不会自动帮你combine 不同的features产生新feature的 (时刻不能抱有这种幻想，那是决策树,LSA, pLSA, LDA或者你自己要干的事情)。举个例子，如果你需要TF*IDF这样的feature，就必须明确的给出来，若仅仅分别给出两维 TF 和 IDF 是不够的，那样只会得到类似 a*TF + b*IDF 的结果，而不会有 c*TF*IDF 的效果。

转自: http://hi.baidu.com/hehehehello/item/40025c33d7d9b7b9633aff87

第一个matlab程序 Logistic Regression

如果预测值只能是0或者1，线性回归不是一个好的办法，线性回归不能把输出值限制在区间（0,1）。

那么可以做一个logistic变换，使得变换之后的输出值区间限制在（0,1）。

http://f.hiphotos.baidu.com/space/pic/item/dc54564e9258d1094eea342dd158ccbf6c814d20.jpgregression （逻辑回归）概述" TITLE="Logistic regression （逻辑回归）概述" />

是一个关于（0,0.5）对称的奇函数。

http://h.hiphotos.baidu.com/space/pic/item/9358d109b3de9c822e3b64106c81800a18d843d7.jpgregression （逻辑回归）概述" TITLE="Logistic regression （逻辑回归）概述" />

假设

http://e.hiphotos.baidu.com/space/pic/item/b21bb051f81986185210721b4aed2e738ad4e6de.jpgregression （逻辑回归）概述" TITLE="Logistic regression （逻辑回归）概述" />

则

http://b.hiphotos.baidu.com/space/pic/item/6a63f6246b600c33262943571a4c510fd8f9a1d9.jpgregression （逻辑回归）概述" TITLE="Logistic regression （逻辑回归）概述" />

求其似然函数：

http://c.hiphotos.baidu.com/space/pic/item/a1ec08fa513d2697d36195c255fbb2fb4216d8fb.jpgregression （逻辑回归）概述" TITLE="Logistic regression （逻辑回归）概述" />

log似然函数：

http://e.hiphotos.baidu.com/space/pic/item/d833c895d143ad4b95b4db5f82025aafa50f0692.jpgregression （逻辑回归）概述" TITLE="Logistic regression （逻辑回归）概述" />

最大似然要使其log似然函数值最大，用梯度下降法求取最大值时的参数。

http://d.hiphotos.baidu.com/space/pic/item/48540923dd54564e69b679a6b3de9c82d0584f5a.jpgregression （逻辑回归）概述" TITLE="Logistic regression （逻辑回归）概述" />

最终迭代更新参数的公式为：

http://g.hiphotos.baidu.com/space/pic/item/b7fd5266d01609249dfa3f84d40735fae7cd3455.jpgregression （逻辑回归）概述" TITLE="Logistic regression （逻辑回归）概述" />

在matlab上简单实现了下，主要是为了熟悉matlab的语法及函数。

文件Logistic_Regression.m，其中的内容为：

function [theta]=Logistic_Regression (X,Y,alpha)

xSize = size(X);
xRowSize = xSize(:,1);
xColSize = xSize(:,2);

�d one column which is all ones to the first cloumn of X,
%this is for theta(0).
onesColum = ones(xRowSize,1);
X=[onesColum,X];

ySize = size(Y);
yRowSize = ySize(:,1);
yColSize = ySize(:,2);

%check parameters
if yColSize~=1
error('The sencode parameter should contain only one column.');
end
if xRowSize~=yRowSize
error('Matrix dimensions not agree,X should has the same number of rows as Y.');
end

%initialize theta
thetaSize = xColSize+1;
theta = zeros(thetaSize,1);

esp  = 0.0001;
loss = Inf;
iter = 0;
maxIter = 1000;
while loss>esp && iter
    %hypotheis(X;theta) = 1/1+exp(-X*theat);
    hypothesis = -X*theta;

    for i=1:1:yRowSize
        hypothesis(i)=1/(1+exp(hypothesis(i)));
    end

    loss = 0;
    for i=1:1:thetaSize
        update=(hypothesis - Y)'*X(:,i).*alpha;
        loss = loss + abs(update);
        theta(i)= theta(i)-update;
    end
    iter=iter+1;
end
display(sprintf('iter times;%d\tloss：%6.5f\n',iter,loss));
end

在matlab命令行窗口中输入：

>> X = [0.0 0.1 0.7 1.0 1.1 1.3 1.4 1.7 2.1 2.2]';
>> Y = [0 0 1 0 0 0 1 1 1 1]';

>> B=Logistic_Regression(X,Y,0.5)
iter times;117 loss：0.00010

B =

-3.4922
2.9395

用matlab系统中函数测试：

>> C = glmfit(X, [Y ones(10,1)], 'binomial', 'link', 'logit')

C =

-3.4932
2.9402

可以看出来B和C的值接近。

转自: http://hi.baidu.com/flower_mlh/item/a148bfd8a9b1ab13d78ed002

Stanford机器学习---第三讲. 逻辑回归和过拟合问题的解决 logistic Regression & Regularization

本栏目（Machine learning）包括单参数的线性回归、多参数的线性回归、Octave Tutorial、Logistic Regression、Regularization、神经网络、机器学习系统设计、SVM（Support Vector Machines 支持向量机）、聚类、降维、异常检测、大规模机器学习等章节。所有内容均来自Standford公开课machine learning中Andrew老师的讲解。（https://class.coursera.org/ml/class/index）

第三讲-------Logistic Regression & Regularization

本讲内容：

Logistic Regression

=========================

(一)、Classification

（二）、Hypothesis Representation

（三）、Decision Boundary

（四）、Cost Function

（五）、Simplified Cost Function and Gradient Descent

（六）、Parameter Optimization in Matlab

（七）、Multiclass classification : One-vs-all

The problem of overfitting and how to solve it

=========================

（八）、The problem of overfitting

（九）、Cost Function

（十）、Regularized Linear Regression

（十一）、Regularized Logistic Regression

本章主要讲述逻辑回归和Regularization解决过拟合的问题，非常非常重要，是机器学习中非常常用的回归工具，下面分别进行两部分的讲解。

第一部分：Logistic Regression

假设随Tumor Size变化，预测病人的肿瘤是恶性（malignant）还是良性（benign）的情况。

给出8个数据如下：

http://my.csdn.net/uploads/201207/04/1341402366_3280.jpgregression （逻辑回归）概述" />

假设进行linear regression得到的hypothesis线性方程如上图中粉线所示，则可以确定一个threshold:0.5进行predict

y=1, if h(x)>=0.5

y=0, if h(x)<0.5

即malignant=0.5的点投影下来，其右边的点预测y=1;左边预测y=0；则能够很好地进行分类。

那么，如果数据集是这样的呢？

http://my.csdn.net/uploads/201207/04/1341403402_9129.jpgregression （逻辑回归）概述" />

这种情况下，假设linear regression预测为蓝线，那么由0.5的boundary得到的线性方程中，不能很好地进行分类。因为不满足

y=1, h(x)>0.5

y=0, h(x)<=0.5

这时，我们引入logistic regression model：

http://my.csdn.net/uploads/201207/04/1341403634_5914.jpgregression （逻辑回归）概述" />

所谓Sigmoid function或Logistic function就是这样一个函数g(z)见上图所示

当z>=0时，g(z)>=0.5；当z<0时，g(z)<0.5

由下图中公式知，给定了数据x和参数θ，y=0和y=1的概率和=1

http://my.csdn.net/uploads/201207/04/1341404302_5369.jpgregression （逻辑回归）概述" />

所谓Decision Boundary就是能够将所有数据点进行很好地分类的h(x)边界。

如下图所示，假设形如h(x)=g(θ0+θ1x1+θ2x2)的hypothesis参数θ=[-3,1,1]T, 则有

predict Y=1, if -3+x1+x2>=0

predict Y=0, if -3+x1+x2<0

刚好能够将图中所示数据集进行很好地分类

http://my.csdn.net/uploads/201207/05/1341470683_7505.jpgregression （逻辑回归）概述" />

Another Example:

http://my.csdn.net/uploads/201207/05/1341471264_6699.jpgregression （逻辑回归）概述" />

answer:

http://my.csdn.net/uploads/201207/05/1341471309_5596.jpgregression （逻辑回归）概述" />

除了线性boundary还有非线性decision boundaries，比如http://my.csdn.net/uploads/201207/05/1341472718_8627.jpgregression （逻辑回归）概述" />

下图中，进行分类的decision boundary就是一个半径为1的圆，如图所示：

http://my.csdn.net/uploads/201207/05/1341471338_7289.jpgregression （逻辑回归）概述" />

该部分讲述简化的logistic regression系统中how to implement gradient descents for logistic regression.

假设我们的数据点中y只会取0和1, 对于一个logistic regression model系统，有http://my.csdn.net/uploads/201207/07/1341657968_4370.jpgregression （逻辑回归）概述" />，那么cost function定义如下：

http://my.csdn.net/uploads/201207/07/1341650794_3936.jpgregression （逻辑回归）概述" />

由于y只会取0,1，那么就可以写成

http://my.csdn.net/uploads/201207/07/1341658176_1292.jpgregression （逻辑回归）概述" />

不信的话可以把y=0,y=1分别代入，可以发现这个J（θ）和上面的Cost(hθ(x),y)是一样的(*^__^*) ，那么剩下的工作就是求能最小化 J(θ)的θ了~

http://my.csdn.net/uploads/201207/07/1341658365_6677.jpgregression （逻辑回归）概述" />

在第一章中我们已经讲了如何应用Gradient Descent, 也就是下图Repeat中的部分，将θ中所有维同时进行更新，而J(θ)的导数可以由下面的式子求得，结果如下图手写所示：

http://my.csdn.net/uploads/201207/07/1341658423_4153.jpgregression （逻辑回归）概述" />

现在将其带入Repeat中：

http://my.csdn.net/uploads/201207/07/1341658851_7555.jpgregression （逻辑回归）概述" />

这是我们惊奇的发现，它和第一章中我们得到的公式http://my.csdn.net/uploads/201207/07/1341650756_4768.jpgregression （逻辑回归）概述" />是一样滴~

也就是说，下图中所示，不管h(x)的表达式是线性的还是logistic regression model, 都能得到如下的参数更新过程。

http://my.csdn.net/uploads/201207/07/1341659008_4711.jpgregression （逻辑回归）概述" />

那么如何用vectorization来做呢？换言之，我们不要用for循环一个个更新θj，而用一个矩阵乘法同时更新整个θ。也就是解决下面这个问题：

http://my.csdn.net/uploads/201207/07/1341659160_9211.jpgregression （逻辑回归）概述" />

上面的公式给出了参数矩阵θ的更新，那么下面再问个问题，第二讲中说了如何判断学习率α大小是否合适，那么在logistic regression系统中怎么评判呢？

Q：Suppose you are running gradient descent to fit a logistic regression model with parameter θ∈Rn+1. Which of the following is a reasonable way to make sure the learning rate α is set properly and that gradient descent is running correctly?

A：http://my.csdn.net/uploads/201207/07/1341659914_3644.jpgregression （逻辑回归）概述" />

这部分内容将对logistic regression 做一些优化措施，使得能够更快地进行参数梯度下降。本段实现了matlab下用梯度方法计算最优参数的过程。

首先声明，除了gradient descent 方法之外，我们还有很多方法可以使用，如下图所示，左边是另外三种方法，右边是这三种方法共同的优缺点，无需选择学习率α，更快，但是更复杂。

http://my.csdn.net/uploads/201207/07/1341662451_8533.jpgregression （逻辑回归）概述" />

也就是matlab中已经帮我们实现好了一些优化参数θ的方法，那么这里我们需要完成的事情只是写好cost function,并告诉系统，要用哪个方法进行最优化参数。比如我们用‘GradObj’， Use the GradObj option to specify that FUN also returns a second output argument G that is the partial derivatives of the function df/dX, at the point X.

http://my.csdn.net/uploads/201207/07/1341662943_3392.jpgregression （逻辑回归）概述" />

如上图所示，给定了参数θ，我们需要给出cost Function. 其中，

jVal 是 cost function 的表示，比如设有两个点（1,0,5）和（0,1,5）进行回归，那么就设方程为hθ(x)=θ1x1+θ2x2;
则有costfunction J(θ)： jVal=(theta(1)-5)^2+(theta(2)-5)^2;

在每次迭代中，按照gradient descent的方法更新参数θ：θ(i)-=gradient(i),其中gradient(i)是J(θ)对θi求导的函数式，在此例中就有gradient(1)=2*(theta(1)-5), gradient(2)=2*(theta(2)-5)。如下面代码所示：

函数costFunction, 定义jVal=J(θ)和对两个θ的gradient：

Logistic regression （逻辑回归） 概述

logistic

regression

it

第一个matlab程序 Logistic Regression

Stanford机器学习---第三讲. 逻辑回归和过拟合问题的解决 logistic Regression & Regularization

Matlab实现线性回归和逻辑回归: Linear Regression & Logistic Regression

本文为Maching Learning 栏目补充内容，为上几章中所提到单参数线性回归、多参数线性回归和 逻辑回归的总结版。旨在帮助大家更好地理解回归，所以我在Matlab中分别对他们予以实现，在本文中由易到难地逐个介绍。

Logistic regression （逻辑回归）概述

本文为Maching Learning 栏目补充内容，为上几章中所提到单参数线性回归、多参数线性回归和逻辑回归的总结版。旨在帮助大家更好地理解回归，所以我在Matlab中分别对他们予以实现，在本文中由易到难地逐个介绍。