众数、中位数、算术平均数的关系

标签:
杂谈 |
分类: statistics |
http://class.htu.cn/xljytj/02/023.html
第三节 众数
一、众数的概念
二、众数的计算方法
三、众数的应用、优缺点及适用条件
四、算术平均数、中位数、众数三者的关系
一、概念
范数,密集数,通常数。用MO表示。
指在次数分布中出现次数最多的那个数的数值。
对众数有理论众数和粗略众数两种定义方法:
理论众数是指与频数分布曲线最高点相对应的横坐标上的一点。
粗略众数是指一组数据中频数出现最多的那个数。
理论众数可根据资料的分布形态,用积分法求得,但计算甚繁,一般是用经验公式求理论众数的近似值,或用观察法直接寻找粗略众数。
作用:
能直观地说明现象分布的集中趋势,当总体中出现极端数值时,可代替算术平均数来说明现象的一般水平。
当缺乏平均数资料或某些场合不必计算平均数时,可采取判断决定众数,代替平均数。
例如,集贸市场上成交量最多的价格;购买量最多的商品规格尺码等。
众数(概念要点)
集中趋势的测度值之一
出现次数最多的变量值
不受极端值的影响
可能没有众数或有几个众数
主要用于定类数据,也可用于定序数据和数值型数据
二、众数的计算方法
1、用观察法直接寻找粗略众数
粗略众数不需要计算,可通过观察直接寻得。
(1)对原始数据求众数
在一组原始数据中,频数出现最多的那个数值就是众数。
如,一组原始数据2、4、3、6、4、5、4,其中频数出现最多的数值是4,于是4就是这组数据的众数。
(2)对频数分布表求众数
当数据整理成次数分布表后,在频数分布表中:
频数最多一组的组中值就是粗略众数。
当两个相邻组频数都是最多时,那么两组的分组点就是众数。
由于同一组数据,可以有不同的分组方法,即分组的组数不同、组距大小不一、各组上下限也可能不一样,所以次数分布表内频数最多一组的组中值就可能不同,因此众数也可能不同。可见,众数受分组的影响,并非唯一的。
众数(众数的不唯一性)
http://class.htu.cn/xljytj/02/023_clip_image002.jpg
定类数据的众数(算例)
http://class.htu.cn/xljytj/02/023_clip_image004.jpg
定序数据的众数(算例)
http://class.htu.cn/xljytj/02/023_clip_image006.jpg
2、用公式求理论众数的近似值
求理论众数近似值常用方法有两种:
(1)皮尔逊(K. Pearson)的经验法
利用皮尔逊发现的算术平均数、中位数、众数三者关系来求理论众数近似值的经验公式为:
http://class.htu.cn/xljytj/02/023_clip_image008.gif
公式的适用条件:
只有当频数分布呈正态分布或接近正态分布时才能使用
因为只有在这种条件下,众数才近似地等于三倍的中位数减去两倍的算术平均数。
(2)金氏(w. I. King)插补法
当频数分布呈偏态,即众数所在组以上各组频数总和与以下各组频数总和相差较多时,可以采用金氏公式计算众数,以进行比率调整。公式为:
http://class.htu.cn/xljytj/02/023_clip_image010.gif
公式中:Lmo 表示众数所在组的下限
fa
fb 表示小于众数所在组下限那个相组的频数
i 表示组距
公式的适用条件:当频数分布呈偏态,当然,比较接近正态分布的也适用。
数值型分组数据的众数(要点及计算公式)
http://class.htu.cn/xljytj/02/023_clip_image012.jpg
数值型分组数据的众数(算例)
http://class.htu.cn/xljytj/02/023_clip_image014.jpg
http://class.htu.cn/xljytj/02/023_clip_image016.jpg
三、众数的应用、优缺点及适用条件
众数的概念简单明了,容易理解,但它不稳定,受分组的影响,亦受样本变动有影响,计算时不需每一个数据都加入,因而较少受极端数目的影响,反应不够灵敏,观察众数,不是严格计算而来,用计算方法所得众数亦是一个估计值。同时众数不能作进一步的代数运算。总数乘以众数,也不与数据的总数相等。
但可以利用它较少受两极端数值的影响、反应不灵敏的特点,在下述情况下也常常使用:
当需要快速而粗略地寻求一组数据的代表值时;
当一组数据出现不同质的情况时,可用众数表示典型情况,如工资收入、学生成绩等常以次数最多者为代表值;
当次数分布中有两极端的数目时,有是也用众数(一般用中位数);
当粗略估计次数分布的形态时,有时用平均数、中位数、众数之间的关系粗略判断次数分布。
数据类型与集中趋势测度值
表4-4 |
||||
数据类型 |
定类数据 |
定序数据 |
定距数据 |
定比数据 |
适 |
※众数 |
※中位数 |
※均值 |
※均值 |
— |
四分位数 |
众数 |
调和平均数 |
|
— |
众数 |
中位数 |
几何平均数 |
|
— |
— |
四分位数 |
|
|
— |
— |
— |
四分位数 |
|
— |
— |
— |
众数 |
四、算术平均数、中位数、众数三者的关系
1、算术平均数、中位数、众数的大小与频数分布的形态有关
正态分布的关系
算术平均数、中位数、众数三者重合为一点。即:
http://class.htu.cn/xljytj/02/023_clip_image018.jpg
正偏态:M > Md > Mo
负偏态:M < Md < Mo
偏态中:
当频数分布呈偏态时,中位数(Md)居中,均值与中位数(Md)距离较近,众数(Mo)与中位数(Md)距离较远。均值与中位数(Md)的距离约占均值与众数(Mo)距离的1/3,而众数(Mo)与中位数(Md)的距离约占2/3。即
http://class.htu.cn/xljytj/02/023_clip_image020.gif
各种分布情况下三者的关系,可参见王P46,以帮助我们理解。
四、算术平均数、中位数、众数三者的关系
算术平均数、中位数、众数之间的关系可参看书。
算术平均数、众数、中位数作为集中量数,各自描述的典型情况不同,可图示如下:
http://class.htu.cn/xljytj/02/023_clip_image022.jpg
平均数为一个平衡点,是一组数据的重心。它使数轴保持平衡,即支点两侧的力矩是相等的。
中位数:只使其两侧的数据个数相同。本例中7的两侧各包含4个数。
众数:是指次数出现最多的,重量较大的那个数据。本例为10,因为只有它在系列中出现两次。
众数、中位数和均值的关系
http://class.htu.cn/xljytj/02/023_clip_image024.jpg
2、平均数、中数、众数之间的比较
比较的项目 |
平均数 |
中数 |
众数 |
意义 |
与其两侧数据距离之和相等 |
其两侧数据个数相等 |
出现次数最多的数典型 |
适用数据类型 |
等距、等比 |
顺序、等距、等比 |
性质 顺序 等距 等比 |
计算 |
需要所有的数据 |
只需中间数据 |
计算迅速 |
进一步运算特性 |
可以 |
不可以 |
不可以 |
受抽样的影响 |
较少 |
较大 |
较大 |
受分组的影响 |
不大 |
较大 |
最大 |
受极端数据的影响 |
最严重 |
最少 |
一般 |
适用场合 |
一般情况都用平均数 |
①有极端数据时 |
①有极端数据时 |