最小二乘法由天文学的问题产生,由法国的数学家
勒让德Legendre)创造,但也有人说是高斯(Gauss)创造的,高斯拓展了最小二乘法,把正态分布和最小二乘法联系在一起,并使得正态分布在统计误差分析中确立了自己的定位,否则正态分布就不会被称为高斯分布了。同时代的欧拉(Euler),
拉普拉斯(Lapalace)都无法逾越“求解线性矛盾方程的问题”的鸿沟。
天文学是第一个被测量误差困扰的学科。伽利略在他著名的《关于两个主要世界系统的对话》中,对误差的分布做过一些定性的描述,主要包括: 误差是对称分布的; 大的误差出现频率低,小的误差出现频率高。用数学的语言描述,也就是说误差分布函数 f(x)关于0对称分布,概率密度随 |x|增加而减小,
这两个定性的描述都很符合常识。许多天文学家和数学家开始了寻找误差分布曲线的尝试:【Simpson
的误差态分布曲线】,【Laplace
的误差态分布曲线】。
现在轮到高斯登场了,高斯在数学史中的地位极高,号称数学史上的狐狸,数学家阿贝尔对他的评论是
"He is like the fox, who effaces his tracks in the sand with his
tail."
我们的数学大师陈省身把黎曼和庞加莱称为数学家中的菩萨,而称自己为罗汉;高斯是黎曼的导师,数学圈里有些教授把高斯称为数学家中的佛。
在数学家中上既能仰望理论数学的星空,又能脚踏应用数学的实地的可不多见,
高斯是数学家中少有的顶”天“立”地“的人物,它既对纯理论数学有深刻的洞察力,又极其重视数学在实践中的应用。
在误差分布的处理中,高斯以及其简单的手法确立了随机误差的概率分布,其结果成为数理统计发展史上的一块里程碑。
高斯的介入首先要从天文学界的一个事件说起。1801年1月,天文学家Giuseppe
Piazzi发现了一颗从未见过 的光度8等的星在移动,
这颗现在被称作谷神星(Ceres)的小行星在夜空中出现6个星期,扫过八度角后在就在太阳的光芒下没了踪影,无法观测。
而留下的观测数据有限,难以计算出他的轨道,天文学家也因此无法确定这颗新星是彗星还是行星,
这个问题很快成了学术界关注的焦点。高斯当时已经是很有名望的年轻数学家了,
这个问题引起了他的兴趣。高斯以其卓越的数学才能创立了一种崭新的
行星轨道的计算方法,一个小时之内就计算出了行星的轨道,并预言了他在夜空中出现的时间和位置。
1801年12月31日夜,德国天文爱好者奥伯斯(Heinrich Olbers),在高斯预言的时间里,用望远镜对准了这片天空。
果然不出所料,谷神星出现了!
高斯为此名声大震,但是高斯当时拒绝透露计算轨道的方法,原因可能是高斯认为自己的方法的理论基础还不够成熟,
而高斯一向治学严谨、精益求精,不轻易发表没有思考成熟的理论。直到1809年高斯系统地完善了相关的数学理论后,
才将他的方法公布于众,而其中使用的数据分析方法,就是以正态误差分布为基础的最小二乘法。
那高斯是如何推导出误差分布为正态分布的?让我们看看高斯是如何猜测上帝的意图的。
设真值为 \theta, x_1, \cdots,
x_n为n次独立测量值, 每次测量的误差为 e_i = x_i -
\theta , 假设误差e_i的密度函数为 f(e),
则测量值的联合概率为n个误差的联合概率,记为
\begin{equation} L(\theta) = L(\theta;x_1,\cdots,x_n)=f(e_1)\cdots
f(e_n) = f(x_1-\theta)\cdots f(x_n-\theta)\end{equation}
但是高斯不采用贝叶斯的推理方式,而是直接取L(\theta)达到最大值的 \hat{\theta}=\hat{\theta}(x_1,\cdots,x_n)作为\theta的估计值,即
http://www.52nlp.cn/wp-content/plugins/latex/cache/tex_b98887090e2a4cb5bbc5cc3df3892749.gif
现在我们把L(\theta)称为样本的似然函数,而得到的估计值 \hat{\theta}称为极大似然估计。
高斯首次给出了极大似然的思想,这个思想后来被统计学家 R.A.Fisher 系统的发展成为参数估计中的极大似然估计理论。
高斯接下来的想法特别牛,他开始揣度上帝的意图,而这充分体现了高斯的数学天才。
高斯把整个问题的思考模式倒过来:既然千百年来大家都认为算术平均
是一个好的估计,那我就认为极大似然估计导出的就应该是算术平均!所以高斯猜测上帝在创世纪中的旨意就是:
误差分布导出的极大似然估计 = 算术平均值
然后高斯去找误差密度函数 f以迎合这一点。即寻找这样的概率分布函数 f,
使 得极大似然估计正好是算术平均 \hat{\theta} =
\bar{x}。而高斯应用数学技巧求解这个函数f,
高斯证明(证明不难,后续给出),所有的概率密度函数中,唯一满足这个性质的就是
http://www.52nlp.cn/wp-content/plugins/latex/cache/tex_762610274783a9e1e64ed0ac746e9a50.gif
瞧,正态分布的密度函数 N(0, \sigma^2)被高斯他老人家给解出来了!
高斯的推导存在循环论证的味道:因为算术平均是优良的,推出误差必须服从正态分布;
反过来,又基于正态分布推导出最小二乘和算术平均,来说明最小二乘法和算术平均的优良性。这陷入了一个鸡生蛋蛋生鸡的怪圈,逻辑上算术平均的优良性到底有没有自行成立的理由呢?高斯的文章发表之后,拉普拉斯很快得知了高斯的工作。
拉普拉斯看到,正态分布既可以从作为抛钢镚产生的序列和中生成出来,又可以被优雅的作为误差分布定律,
这难道是偶然现象?拉普拉斯不愧为概率论的大牛,他马上将误差的正态分布理论和中心极限定理联系起来,提出了元误差解释。
他指出如果误差可以看成许多量的叠加,则根据他的中心极限定理,则随机误差理所应当是高斯分布。
而20世纪中心极限定理的进一步发展,也给这个解释提供了更多的理论支持。因此有了这个解释为出发点,
高斯的循环论证的圈子就可以打破。
加载中,请稍候......