最小二乘法和正太分布的关系_渔婆的愚公

http://blog.sina.com.cn/u/1912883411

首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

最小二乘法和正太分布的关系

(2012-10-19 16:59:29)

标签：

最小二乘法

高斯分布

误差

教育

分类：数学好玩儿

最小二乘法由天文学的问题产生，由法国的数学家勒让德Legendre)创造，但也有人说是高斯(Gauss)创造的，高斯拓展了最小二乘法，把正态分布和最小二乘法联系在一起，并使得正态分布在统计误差分析中确立了自己的定位，否则正态分布就不会被称为高斯分布了。同时代的欧拉(Euler), 拉普拉斯(Lapalace)都无法逾越“求解线性矛盾方程的问题”的鸿沟。

天文学是第一个被测量误差困扰的学科。伽利略在他著名的《关于两个主要世界系统的对话》中，对误差的分布做过一些定性的描述，主要包括：误差是对称分布的; 大的误差出现频率低，小的误差出现频率高。用数学的语言描述，也就是说误差分布函数 f(x)关于0对称分布，概率密度随 |x|增加而减小，这两个定性的描述都很符合常识。许多天文学家和数学家开始了寻找误差分布曲线的尝试：【Simpson 的误差态分布曲线】，【Laplace 的误差态分布曲线】。

现在轮到高斯登场了，高斯在数学史中的地位极高，号称数学史上的狐狸，数学家阿贝尔对他的评论是 "He is like the fox, who effaces his tracks in the sand with his tail." 我们的数学大师陈省身把黎曼和庞加莱称为数学家中的菩萨，而称自己为罗汉；高斯是黎曼的导师，数学圈里有些教授把高斯称为数学家中的佛。在数学家中上既能仰望理论数学的星空，又能脚踏应用数学的实地的可不多见，高斯是数学家中少有的顶”天“立”地“的人物，它既对纯理论数学有深刻的洞察力，又极其重视数学在实践中的应用。在误差分布的处理中，高斯以及其简单的手法确立了随机误差的概率分布，其结果成为数理统计发展史上的一块里程碑。

高斯的介入首先要从天文学界的一个事件说起。1801年1月，天文学家Giuseppe Piazzi发现了一颗从未见过的光度8等的星在移动，这颗现在被称作谷神星（Ceres）的小行星在夜空中出现6个星期，扫过八度角后在就在太阳的光芒下没了踪影，无法观测。而留下的观测数据有限，难以计算出他的轨道，天文学家也因此无法确定这颗新星是彗星还是行星，这个问题很快成了学术界关注的焦点。高斯当时已经是很有名望的年轻数学家了，这个问题引起了他的兴趣。高斯以其卓越的数学才能创立了一种崭新的行星轨道的计算方法，一个小时之内就计算出了行星的轨道，并预言了他在夜空中出现的时间和位置。 1801年12月31日夜，德国天文爱好者奥伯斯(Heinrich Olbers)，在高斯预言的时间里，用望远镜对准了这片天空。果然不出所料，谷神星出现了！

高斯为此名声大震，但是高斯当时拒绝透露计算轨道的方法，原因可能是高斯认为自己的方法的理论基础还不够成熟，而高斯一向治学严谨、精益求精，不轻易发表没有思考成熟的理论。直到1809年高斯系统地完善了相关的数学理论后，才将他的方法公布于众，而其中使用的数据分析方法，就是以正态误差分布为基础的最小二乘法。那高斯是如何推导出误差分布为正态分布的？让我们看看高斯是如何猜测上帝的意图的。

设真值为 \theta, x_1, \cdots, x_n为n次独立测量值, 每次测量的误差为 e_i = x_i - \theta ，假设误差e_i的密度函数为 f(e), 则测量值的联合概率为n个误差的联合概率，记为

\begin{equation} L(\theta) = L(\theta;x_1,\cdots,x_n)=f(e_1)\cdots f(e_n) = f(x_1-\theta)\cdots f(x_n-\theta)\end{equation}

但是高斯不采用贝叶斯的推理方式，而是直接取L(\theta)达到最大值的 \hat{\theta}=\hat{\theta}(x_1,\cdots,x_n)作为\theta的估计值，即

http://www.52nlp.cn/wp-content/plugins/latex/cache/tex_b98887090e2a4cb5bbc5cc3df3892749.gif

现在我们把L(\theta)称为样本的似然函数，而得到的估计值 \hat{\theta}称为极大似然估计。高斯首次给出了极大似然的思想，这个思想后来被统计学家 R.A.Fisher 系统的发展成为参数估计中的极大似然估计理论。

高斯接下来的想法特别牛，他开始揣度上帝的意图，而这充分体现了高斯的数学天才。高斯把整个问题的思考模式倒过来：既然千百年来大家都认为算术平均是一个好的估计，那我就认为极大似然估计导出的就应该是算术平均！所以高斯猜测上帝在创世纪中的旨意就是：

误差分布导出的极大似然估计 = 算术平均值

然后高斯去找误差密度函数 f以迎合这一点。即寻找这样的概率分布函数 f, 使得极大似然估计正好是算术平均 \hat{\theta} = \bar{x}。而高斯应用数学技巧求解这个函数f, 高斯证明(证明不难，后续给出)，所有的概率密度函数中，唯一满足这个性质的就是

http://www.52nlp.cn/wp-content/plugins/latex/cache/tex_762610274783a9e1e64ed0ac746e9a50.gif

瞧，正态分布的密度函数 N(0, \sigma^2)被高斯他老人家给解出来了！

高斯的推导存在循环论证的味道：因为算术平均是优良的，推出误差必须服从正态分布；反过来，又基于正态分布推导出最小二乘和算术平均，来说明最小二乘法和算术平均的优良性。这陷入了一个鸡生蛋蛋生鸡的怪圈，逻辑上算术平均的优良性到底有没有自行成立的理由呢？高斯的文章发表之后，拉普拉斯很快得知了高斯的工作。拉普拉斯看到，正态分布既可以从作为抛钢镚产生的序列和中生成出来，又可以被优雅的作为误差分布定律，这难道是偶然现象？拉普拉斯不愧为概率论的大牛，他马上将误差的正态分布理论和中心极限定理联系起来，提出了元误差解释。他指出如果误差可以看成许多量的叠加，则根据他的中心极限定理，则随机误差理所应当是高斯分布。而20世纪中心极限定理的进一步发展，也给这个解释提供了更多的理论支持。因此有了这个解释为出发点，高斯的循环论证的圈子就可以打破。

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report

前一篇：最大熵和正态分布

后一篇：2012年10月25日篮球英语

新浪BLOG意见反馈留言板　欢迎批评指正