加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

【钟形曲线那些事(上)】中心极限定理

(2013-08-25 23:07:26)
标签:

数学

科普

教育

分类: 有时讲理
这回,从伯努利实验谈起。
掷一枚硬币,正面反面出现的概率假设是相等,且每次掷的结果都是独立的;那么掷硬币就是一个伯努利实验。如果扔三次,记录其全部结果应该是这样:
(其中F为正面,B为反面)
8种之中,正面朝上次数为3的和0的排列同样是1种,为2的和为1的一样是3种。
如果把实验次数添至6次,那么正面朝上次数为6或0的排列分别都是1种,为5或1的分别都是6种,为4或2的分别都是15种,次数为3的最多、有20种——全部加起来恰好是2的6次方即64种。
可以从中看出的一个规律就是,正(反)面出现次数越靠近「中间」的,分配给它的种类数就越多。
直观上容易理解,越往两边靠,情况越极端;从两头极端同时「包抄」到中间,可能性(概率)当然会逐渐变多,最后在中间达到极限。
这里已经道出「中心极限定理」的内容了。这个《钟形曲线》系列的第一章,名就叫《中心极限定理》;所以,这个神奇的定理不会只字面描述,起码会给出推导,与量化的描述,以便引出正题:正态分布曲线,也称钟形曲线、高斯曲线。

实际上,上面的掷硬币实验,用二项分布的组合数公式一下子能得到计算正 / 反面恰好出现 k 次的概率
其中 n 是硬币被掷的次数。这个式子可以看成正 / 反面恰好出现 k 次的组合数,比上总的次数 2 的 n 次方。刚才上面举的例子中的数字可以直接当成组合数。
硬币实验的柱状图是这样子的:
是否觉得它的轮廓有一点点像一个倒挂的钟?是的,这就是传说中的钟形曲线——只不过它仍是一个「离散」版。
日常生活我们也会处理一些大的数据问题,例如三年之内早上睡懒觉的分布;大型统计时,数据往往会更超级;既然数据可以比我们想像的远远要大,不妨就看看掷硬币的次数 n 远大于某个指定常数 k 时,会发生什么情况吧!
先旨声明,一定会有人(即使是首次读到钟形曲线)能想到,n 的增大只会使这个曲线的形状越发趋于平滑——最终变成真正的钟形。我可以事先声明,事实恰是如此,但又为何会这样呢?所以,还是有必要计算一下的。

先前我有说到一句话
……越往两边靠,情况越极端;从两头极端同时「包抄」到中间,可能性(概率)当然会逐渐变多,最后在中间达到极限。
这句话可以玩味一下。我们可以用它来实现一个计算极限的思路。
按这句话,可以这样想:如果我们站在正中央出发,然后往左或右两边移动,看到的景象——将会同样是「柱」的逐步降低,直至贴近「地面」。
为了计算方便,我们把总实验次数 n 设为 2m ,那么「正中间」就对应着 k = m。这样我们可以立即代入得出中央那条柱的高度;这是用于作标准用的。往后假设我往左 / 右移动 j 个单位,那么我新得到的次数就对应着 k = m±j 。
我将会用比值来描述其降低的关系规律。

(往下按右移,即 +j 计算)
这个比值是
把其中的组合运算拆开,
这东西化简下去,最后将会得到
这里算下去有一点点技巧。
设这个分式的分子为 L,如果对 L 取 自然对数,有
当 m 比常数 j 大得多时,这个式子右边每一项都是无穷小,可以用等价无穷小替换,
所以分子 L 的极限为
类似地,分母的极限可以用算得为
因此,整个分式的值算出来,为
这个幂是什么东西呢?往前面的文字回顾一下,它正是
http://s3/bmiddle/a0a95bc0gx6C8FttBJg52&690 
计算到此,基本完成最麻烦的阶段了。
先前我们还说过,「为了简便」所以用 2m、m+j 来代替 n、k 的。是时候把 n、k 还回来了。
得到的结果为
使用这个式子计算概率时,由于 n 是当做一个给定的数,k 是自变量,因此这个式子其实也可以写成
这个、就是掷硬币掷 n 次恰好得出 k 次正面 / 反面的计算公式。这个公式厉害在哪里?下一段。

有的童鞋也许会认为,搞啥呀,弄了半天,弄出一个数字还要多的公式!
——其实不是的,这是很厉害的化简。要知道,这里的自变量是 k ,因此未化简前的左边是要计算(组合数公式里的)三个阶乘;而右边——没有了阶乘,只是一个比较「长」的函数;不过,一眼还真看不出是什么东西。

没事,我们可以给函数画个笛卡尔坐标曲线图。画图之前,右边这个式子(对应的曲线),要先把它变换(扩缩平移)成「更为常见」的形式:
——慢!扩缩平移后主要形状不变能理解,但变成这种东西干嘛?为了好看么?!呵,这虽然是原因之一,可当然不仅仅是为了好看,它有几个有趣的原因——
——甚至包括前面系数冒出了的一个圆周率,也有其原因。但是这个,是后面几章的主要内容。现在,暂押不表。

我们来给这个函数画个连续的曲线图像吧,这是一个很漂亮的曲线:
是的,它就是钟形曲线。

钟形曲线,也称正态分布曲线、高斯曲线,也是可以这样推导出来的。关于这个曲线,要说的才刚刚开始。
日常生活中,它总和概率、大数、分布等关键词形影相随,他的故事是很多的。接下来的几章,会试图解释它的标准方程为何会是这样子,而不是带有组合数的那个形式。
而中心极限定理的内容是,在普遍类似伯努利实验那样的多次、概率不变、独立重复的事件中,整体概率总是类钟形曲线方式分布,即「中间有个峰,两头对称递减」。这规律是非常地普遍,从中也能略知正态分布(钟形曲线)在经典概率论里的重要性。

带出了钟形曲线,本章也就可以结束了。
未完待续。

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有