加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

极大似然与最小误差

(2014-10-31 12:54:23)
标签:

算法

分类: 流程

极大似然的理解例子:

       假设有一个袋子,里面装有红球和黑球,球的总数目未知,红球和黑球的比例未知,现要大概估计红球的概率。怎么做,很直观的想法,抽出100个球,发现有70个红球,30个黑球,那么我们就猜测红球的比例是70%,当然这个比例不一定准确,只是我们根据抽样的结果来猜测的,这个猜测结果随着拿出球的数目越多越准确。但是我们为什么会预估其红球的概率是70%呢,其实在极大似然中可以找到一定的踪影。

       我们假设红球的比例为p,进而抽出红球的概率为p,抽取黑球的概率为(1-p),那么抽出100个球后,这些球刚好长成“70红30黑”这个样子的概率是p70(1-p)30,那么现在的问题就转换为,当p为多少时,我们抽出来的球是长这个样子的概率最大,这个概率最大时对应的p,我们就最有把握。

       对L= p70(1-p)30求导,令导数为0,可得70p69(1-p)30-30(1-p)29p70=70-100p=0 => p=0.7

其中L就是似然概率,而令其导数为0就是让似然概率极大化。

 

       而对于极大似然与最小误差,其实只是目标函数的不同,不是方法的不同,在极大似然中,目标函数是似然函数,我们需要将其极大化,以保证最有信心的推断;在最小二乘中,目标函数是距离偏差平方和,我们需要将其极小化,以保证偏差最小。

 

二、极大似然估计:使该目标最大化

在二分类中,把单一样本的类别假设为发生概率,有如下式子(这里的h(x)类似于上面的p):

                             http://s10/mw690/0023Tg47gy6Nf1MZuQh59&690
 这里的p(y|x;sita)类比于上面的p,y=1表示红球)  

这里的L就是上面提到的取出这样的球的概率,对其求对数Log可得

对其关于sita(j)求导令导数为0,当h(x)为S型函数的时候,有

                                 http://s8/mw690/0023Tg47gy6Nf1U8kUT77&690

进而可得
            http://s11/mw690/0023Tg47gy6Nf1WfBCa1a&690
  

从而梯度方向为                 (y-h(x))*x

得到梯度法的迭代公式为:

                           http://s13/mw690/0023Tg47gy6Nf23Cb0M5c&690
三、最小误差:使目标最小化

可以令目标函数为http://s3/mw690/0023Tg47gy6Nf2995C292&690

其中h(x)是预测值,y是实际值,D就是误差平方和的一半,我们极小化这个D,就是让误差最小。

对D关于sita(j)求导令导数为0可得:

http://s5/mw690/0023Tg47gy6Nf2cPK3qb4&690

其中C是常数

进而梯度方向也为(y-h(x))*x       (C只是一个常数,可以约化到学习率alpha中)

 

       因此,在极大化似然函数和极小化误差函数时,最后都可以得到梯度方向,而真正迭代的方法是采用梯度法,所以最后的迭代公式其实都一致,就是

                           http://s13/mw690/0023Tg47gy6Nf2iknsUdc&690

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有