加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

中心趋势度量:均值、中位数和众数

(2016-05-05 17:15:13)
标签:

杂谈

度量数据中心趋势的各种方法。假设我们有某个属性X,如salary,已经对一个数据对象集记录了它们的值。令x1,x2,…,xN为X的N个观测值或观测。在本节的余下部分,这些值又称(X的)“数据集”。如果我们标出salary的这些观测,大部分值将落在何处?这反映数据的中心趋势的思想。中心趋势度量包括均值、中位数、众数和中列数。

数据集“中心”的最常用、最有效的数值度量是(算术)均值。令x1,x2,…,xN为某数值属性X(如salary)的N个观测值或观测。该值集合的均值(mean)为

http://tc/maxwidth.2048/tc.service.weibo.com/www_2cto_com/0c6a7d32cd18fd06279c3910638712db.jpg
 

这对应于关系数据库系统提供的内置聚集函数average(SQL的avg())。

例2.6 均值。假设我们有salary的如下值(以千美元为单位),按递增次序显示:30,31,47,50,52,52,56,60,63,70,70,110。使用(2.1)式,我们有

http://tc/maxwidth.2048/tc.service.weibo.com/www_2cto_com/15d13a38ebc532a1ddabad82c3db858f.jpg
 

因此,salary的均值为58000美元。

有时,对于i=1,…,N,每个值xi可以与一个权重wi相关联。权重反映它们所依附的对应值的意义、重要性或出现的频率。在这种情况下,我们可以计算

http://tc/maxwidth.2048/tc.service.weibo.com/www_2cto_com/2d45293614bc568d6367d294a6d50087.jpg
 

这称做加权算术均值或加权平均。

尽管均值是描述数据集的最有用的单个量,但是它并非总是度量数据中心的最佳方法。主要问题是,均值对极端值(例如,离群点)很敏感。例如,公司的平均薪水可能被少数几个高收入的经理显著推高。类似地,一个班的考试平均成绩可能被少数很低的成绩拉低一些。为了抵消少数极端值的影响,我们可以使用截尾均值(trimmed mean)。截尾均值是丢弃高低极端值后的均值。例如,我们可以对salary的观测值排序,并且在计算均值之前去掉高端和低端的2%。我们应该避免在两端截去太多(如20%),因为这可能导致丢失有价值的信息。

对于倾斜(非对称)数据,数据中心的更好度量是中位数(median)。中位数是有序数据值的中间值。它是把数据较高的一半与较低的一半分开的值。

在概率论与统计学,中位数一般用于数值数据。然而,我们把这一概念推广到序数数据。假设给定某属性X的N个值按递增序排序。如果N是奇数,则中位数是该有序集的中间值;如果N是偶数,则中位数不唯一,它是最中间的两个值和它们之间的任意值。在X是数值属性的情况下,根据约定,中位数取作最中间两个值的平均值。

例2.7 中位数。让我们找出例2.6中数据的中位数。该数据已经按递增序排序。有偶数个观测(即12个观测),因此中位数不唯一。它可以是最中间两个值52和56(即列表中的第6和第7个值)中的任意值。根据约定,我们指定这两个最中间的值的平均值为中位数。即http://tc/maxwidth.2048/tc.service.weibo.com/www_2cto_com/f1cfa9f5ebc659bb90c861f87a1ce34c.jpg。于是,中位数为54000美元。

假设我们只有该列表的前11个值。给定奇数个值,中位数是最中间的值。这是列表的第6个值,其值为52000美元。

当观测的数量很大时,中位数的计算开销很大。然而,对于数值属性,我们可以很容易计算中位数的近似值。假定数据根据它们的xi值划分成区间,并且已知每个区间的频率(即数据值的个数)。例如,可以根据年薪将人划分到诸如10000~20000美元、20000~30000美元等区间。令包含中位数频率的区间为中位数区间。我们可以使用如下公式,用插值计算整个数据集的中位数的近似值(例如,薪水的中位数):

http://tc/maxwidth.2048/tc.service.weibo.com/www_2cto_com/7020c76da840118676fa8d4f07fe3d66.jpg
 

其中,L1是中位数区间的下界,N是整个数据集中值的个数,46(freq)l是低于中位数区间的所有区间的频率和,freqmedian是中位数区间的频率,而width是中位数区间的宽度。

众数是另一种中心趋势度量。数据集的众数(mode)是集合中出现最频繁的值。因此,可以对定性和定量属性确定众数。可能最高频率对应多个不同值,导致多个众数。具有一个、两个、三个众数的数据集合分别称为单峰的(unimodal)、双峰的(bimodal)和三峰的(trimodal)。一般地,具有两个或更多众数的数据集是多峰的(multimodal)。在另一种极端情况下,如果每个数据值仅出现一次,则它没有众数。

例2.8 众数。例2.6的数据是双峰的,两个众数为52000美元和70000美元。

对于适度倾斜(非对称)的单峰数值数据,我们有下面的经验关系

http://tc/maxwidth.2048/tc.service.weibo.com/www_2cto_com/798276eac87c580985db325905c03b58.jpg
 

这意味:如果均值和中位数已知,则适度倾斜的单峰频率曲线的众数容易近似计算。

中列数(midrange)也可以用来评估数值数据的中心趋势。中列数是数据集的最大和最小值的平均值。中列数容易使用SQL的聚集函数max()和min()计算。

例2.9 中列数。例2.6数据的中列数为http://tc/maxwidth.2048/tc.service.weibo.com/www_2cto_com/8448f63239a626923d187492028381fe.jpg美元。

在具有完全对称的数据分布的单峰频率曲线中,均值、中位数和众数都是相同的中心值,如图2.1a所示。

在大部分实际应用中,数据都是不对称的。它们可能是正倾斜的,其中众数出现在小于中位数的值上(见图2.1b);或者是负倾斜的,其中众数出现在大于中位数的值上

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有