极大似然的理解例子:
假设有一个袋子,里面装有红球和黑球,球的总数目未知,红球和黑球的比例未知,现要大概估计红球的概率。怎么做,很直观的想法,抽出100个球,发现有70个红球,30个黑球,那么我们就猜测红球的比例是70%,当然这个比例不一定准确,只是我们根据抽样的结果来猜测的,这个猜测结果随着拿出球的数目越多越准确。但是我们为什么会预估其红球的概率是70%呢,其实在极大似然中可以找到一定的踪影。
我们假设红球的比例为p,进而抽出红球的概率为p,抽取黑球的概率为(1-p),那么抽出100个球后,这些球刚好长成“70红30黑”这个样子的概率是p70(1-p)30,那么现在的问题就转换为,当p为多少时,我们抽出来的球是长这个样子的概率最大,这个概率最大时对应的p,我们就最有把握。
对L=
p70(1-p)30求导,令导数为0,可得70p69(1-p)30-30(1-p)29p70=70-100p=0
=> p=0.7
其中L就是似然概率,而令其导数为0就是让似然概率极大化。
而对于极大似然与最小误差,其实只是目标函数的不同,不是方法的不同,在极大似然中,目标函数是似然函数,我们需要将其极大化,以保证最有信心的推断;在最小二乘中,目标函数是距离偏差平方和,我们需要将其极小化,以保证偏差最小。
二、极大似然估计:使该目标最大化
在二分类中,把单一样本的类别假设为发生概率,有如下式子(这里的h(x)类似于上面的p):
http://s10/mw690/0023Tg47gy6Nf1MZuQh59&690
这里的p(y|x;sita)类比于上面的p,y=1表示红球)
这里的L就是上面提到的取出这样的球的概率,对其求对数Log可得
对其关于sita(j)求导令导数为0,当h(x)为S型函数的时候,有
http://s8/mw690/0023Tg47gy6Nf1U8kUT77&690
进而可得
http://s11/mw690/0023Tg47gy6Nf1WfBCa1a&690
从而梯度方向为
(y-h(x))*x
得到梯度法的迭代公式为:
http://s13/mw690/0023Tg47gy6Nf23Cb0M5c&690
三、最小误差:使目标最小化
可以令目标函数为http://s3/mw690/0023Tg47gy6Nf2995C292&690
其中h(x)是预测值,y是实际值,D就是误差平方和的一半,我们极小化这个D,就是让误差最小。
对D关于sita(j)求导令导数为0可得:
http://s5/mw690/0023Tg47gy6Nf2cPK3qb4&690
其中C是常数
进而梯度方向也为(y-h(x))*x
(C只是一个常数,可以约化到学习率alpha中)
因此,在极大化似然函数和极小化误差函数时,最后都可以得到梯度方向,而真正迭代的方法是采用梯度法,所以最后的迭代公式其实都一致,就是
http://s13/mw690/0023Tg47gy6Nf2iknsUdc&690
加载中,请稍候......