加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

最小二乘法和正太分布的关系

(2012-10-19 16:59:29)
标签:

最小二乘法

高斯分布

误差

教育

分类: 数学好玩儿
     最小二乘法由天文学的问题产生,由法国的数学家勒让德Legendre)创造,但也有人说是高斯(Gauss)创造的,高斯拓展了最小二乘法,把正态分布和最小二乘法联系在一起,并使得正态分布在统计误差分析中确立了自己的定位,否则正态分布就不会被称为高斯分布了。同时代的欧拉(Euler), 拉普拉斯(Lapalace)都无法逾越“求解线性矛盾方程的问题”的鸿沟。
          天文学是第一个被测量误差困扰的学科。伽利略在他著名的《关于两个主要世界系统的对话》中,对误差的分布做过一些定性的描述,主要包括: 误差是对称分布的; 大的误差出现频率低,小的误差出现频率高。用数学的语言描述,也就是说误差分布函数 f(x)关于0对称分布,概率密度随 |x|增加而减小, 这两个定性的描述都很符合常识。许多天文学家和数学家开始了寻找误差分布曲线的尝试:【Simpson 的误差态分布曲线】,【Laplace 的误差态分布曲线】。
           现在轮到高斯登场了,高斯在数学史中的地位极高,号称数学史上的狐狸,数学家阿贝尔对他的评论是 "He is like the fox, who effaces his tracks in the sand with his tail." 我们的数学大师陈省身把黎曼和庞加莱称为数学家中的菩萨,而称自己为罗汉;高斯是黎曼的导师,数学圈里有些教授把高斯称为数学家中的佛。 在数学家中上既能仰望理论数学的星空,又能脚踏应用数学的实地的可不多见, 高斯是数学家中少有的顶”天“立”地“的人物,它既对纯理论数学有深刻的洞察力,又极其重视数学在实践中的应用。 在误差分布的处理中,高斯以及其简单的手法确立了随机误差的概率分布,其结果成为数理统计发展史上的一块里程碑。
           高斯的介入首先要从天文学界的一个事件说起。1801年1月,天文学家Giuseppe Piazzi发现了一颗从未见过 的光度8等的星在移动, 这颗现在被称作谷神星(Ceres)的小行星在夜空中出现6个星期,扫过八度角后在就在太阳的光芒下没了踪影,无法观测。 而留下的观测数据有限,难以计算出他的轨道,天文学家也因此无法确定这颗新星是彗星还是行星, 这个问题很快成了学术界关注的焦点。高斯当时已经是很有名望的年轻数学家了, 这个问题引起了他的兴趣。高斯以其卓越的数学才能创立了一种崭新的 行星轨道的计算方法,一个小时之内就计算出了行星的轨道,并预言了他在夜空中出现的时间和位置。 1801年12月31日夜,德国天文爱好者奥伯斯(Heinrich Olbers),在高斯预言的时间里,用望远镜对准了这片天空。 果然不出所料,谷神星出现了!
           高斯为此名声大震,但是高斯当时拒绝透露计算轨道的方法,原因可能是高斯认为自己的方法的理论基础还不够成熟, 而高斯一向治学严谨、精益求精,不轻易发表没有思考成熟的理论。直到1809年高斯系统地完善了相关的数学理论后, 才将他的方法公布于众,而其中使用的数据分析方法,就是以正态误差分布为基础的最小二乘法。 那高斯是如何推导出误差分布为正态分布的?让我们看看高斯是如何猜测上帝的意图的。

设真值为 \theta, x_1, \cdots, x_n为n次独立测量值, 每次测量的误差为 e_i = x_i - \theta , 假设误差e_i的密度函数为 f(e), 则测量值的联合概率为n个误差的联合概率,记为

\begin{equation} L(\theta) = L(\theta;x_1,\cdots,x_n)=f(e_1)\cdots f(e_n) = f(x_1-\theta)\cdots f(x_n-\theta)\end{equation}

           但是高斯不采用贝叶斯的推理方式,而是直接取L(\theta)达到最大值的 \hat{\theta}=\hat{\theta}(x_1,\cdots,x_n)作为\theta的估计值,即

http://www.52nlp.cn/wp-content/plugins/latex/cache/tex_b98887090e2a4cb5bbc5cc3df3892749.gif

现在我们把L(\theta)称为样本的似然函数,而得到的估计值 \hat{\theta}称为极大似然估计。 高斯首次给出了极大似然的思想,这个思想后来被统计学家 R.A.Fisher 系统的发展成为参数估计中的极大似然估计理论。

           高斯接下来的想法特别牛,他开始揣度上帝的意图,而这充分体现了高斯的数学天才。 高斯把整个问题的思考模式倒过来:既然千百年来大家都认为算术平均 是一个好的估计,那我就认为极大似然估计导出的就应该是算术平均!所以高斯猜测上帝在创世纪中的旨意就是:

误差分布导出的极大似然估计 = 算术平均值

            然后高斯去找误差密度函数 f以迎合这一点。即寻找这样的概率分布函数 f, 使 得极大似然估计正好是算术平均 \hat{\theta} = \bar{x}。而高斯应用数学技巧求解这个函数f, 高斯证明(证明不难,后续给出),所有的概率密度函数中,唯一满足这个性质的就是

http://www.52nlp.cn/wp-content/plugins/latex/cache/tex_762610274783a9e1e64ed0ac746e9a50.gif

瞧,正态分布的密度函数 N(0, \sigma^2)被高斯他老人家给解出来了!

          高斯的推导存在循环论证的味道:因为算术平均是优良的,推出误差必须服从正态分布; 反过来,又基于正态分布推导出最小二乘和算术平均,来说明最小二乘法和算术平均的优良性。这陷入了一个鸡生蛋蛋生鸡的怪圈,逻辑上算术平均的优良性到底有没有自行成立的理由呢?高斯的文章发表之后,拉普拉斯很快得知了高斯的工作。 拉普拉斯看到,正态分布既可以从作为抛钢镚产生的序列和中生成出来,又可以被优雅的作为误差分布定律, 这难道是偶然现象?拉普拉斯不愧为概率论的大牛,他马上将误差的正态分布理论和中心极限定理联系起来,提出了元误差解释。 他指出如果误差可以看成许多量的叠加,则根据他的中心极限定理,则随机误差理所应当是高斯分布。 而20世纪中心极限定理的进一步发展,也给这个解释提供了更多的理论支持。因此有了这个解释为出发点, 高斯的循环论证的圈子就可以打破。

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有