加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

数值变量集中趋势统计描述

(2012-05-01 18:27:47)
标签:

教育

平均数是统计中应用最广泛、最重要的一个指标体系。它表示平均水平或集中趋势,是集中趋势的特征值。平均数有多种,如均数、中位数、几何均数、众数、调和均数等,常用的有均数、几何均数、中位数。

(一)算术均数

算术均数简称均数。反映一组观察值在数量上的平均水平或集中位置,总体均数用 表示,样本均数用 表示。

1.均数的计算方法

(1)直接法:即将所有观察值X1,X2,X3,…,Xn直接相加再除以观察值的个数n。公式为:

                                  

公式中∑是求和符号                                       

例:3.2  5名17岁女中学生的肺活量(L)分别是2.45,2.87,1.98,2.56,2.33。求平均肺活量。

(L)

(2)加权法  当样本量较大时,为避免出错,可用加权法处理,所得结果是直接法的近似值。公式为:

                                                   (3.2)

式中X为组中值,f为每组频数。

试求上例资料的均数

30~49岁健康男子血清总胆固醇平均值为4.735 mmol·L-1

 

表3.2   某地101例30~49岁健康男子血清总胆固醇均数的计算

组段(mmol·L-1)

(1)

频数f

(2)

组中值,X

(3)

fX

(4)=(2)(3)

2.5

1

2.75

2.75

3.0

8

3.25

26

3.5

9

3.75

33.75

4.0

23

4.25

97.75

4.5

25

4.75

118.75

5.0

17

5.25

89.25

5.5

9

5.75

51.75

6.0

6

6.25

37.5

6.5

2

6.75

13.5

7.0~7.5

 

1

 

7.25

7.25

合计

101

 

478.25

2.均数有两个重要特性

(1)离均差之和为零:即

∑(X- )=0

(2)离均差平方和最小:就是说离均差平方和小于各观察值与其它任何数a (a≠ ) 之差的平方和,即

∑(X- )2<∑(X-a) (a≠ )

3.均数的应用  均数能反映全部观察值的平均水平或集中位置因而应用最广泛。它适用于对称分布资料,尤其是正态分布资料。偏态分布资料用几何均数或中位数。

(二)几何均数  用G表示,适用于呈对数正态分布的资料,或呈等比关系的资料。如医学中常用的抗体滴度、血清效价等。但所计算观察值不能为零或同时出现正负值;同组资料算出的几何均数(G)均小于均数( )。

几何均数的计算方法如下:

1.直接法:其计算公式是:

                                            (3.3)

例:3人血清抗体效价分别为1∶10,1∶100,1∶1000,求其平均效价。

3人血清抗体效价的平均效价为1∶100。

2.加权法:计算公式如下:

                                           (3.4)

例3.4测得46名正常人的血清乙型肝炎表面抗原(HbsAg)滴度如下,求其平均滴度。

滴度    1∶8    1∶16    1∶32    1∶64    1∶128

人数     17      15       11              0

=lg-1 1.2041

=16.0

其平均滴度为1∶16

(三)中位数和百分位数  一群变量值由小到大排列依次居中的观察值就是中位数,中位数用M表示。百分位数是一种位置指标,用Px表示。一个百分位数Px将一群变量值分为两部分,理论上有X%的观察值比它小,有(100-X%)的观察值比它大。P50就是中位数,故中位数是一个特定的百分位数。

1.计算方法

(1)直接法:一般在样本含量不大时使用,先将各观察值由小到大排列,然后按偶数或奇数分别计算。

n为奇数                                            

 

n为偶数                                     

 

式中,下标( )、( )、( +1) 为有序数列的位次,  、  、  为相应位次的观察值。上两式的实际含意为:当样本含量n为奇数时,位置居中的那个数值就是M;当n为偶数时,位置居中的两个数值的平均数就是M。

例3.5,某病患者7人潜伏期分别为1,2,3,5,10,15,20天,求其中位数。

M= =5 (天)

例3.6  例3.6中又多1例其潜伏期为22天,求中位数

M=  (天)

(2)用频数表法计算中位数和百分位数

步骤是①按所分组段,由小到大计算累计频数和累计频率,如表3.3第(3)(4)栏;②确定Px所在组段,按下式计算M或Px。

                                     (3.7)

式中L、i、fX分别为Px所在组的下限、组距和频数,n为总例数,∑fL为小于L的各组段的累计例数,求中位数M时,X=50,M=P50

例:50例咽峡炎患者的潜伏期如下,求M,P25,P75,P2.5,P97.5

本例n=50,求Px关键在于找出Px所在组,Px在累计频数∑f略大于n·X%组内,本例知50%在38%与60%之间,故P50(M)在“48~”组段内,将有关数据代入式。

M=  = 54.5 (h)

同理

 (h)

 (h)

 (h)

  (h)

 表     50例咽峡炎患者潜伏期的M和Px的计算

潜伏期(小时)

(1)

人数,f

(2)

累计频数∑f

(3)

累计频率(%)

(4)=(3)/n

12~

1

1

2

24~

7

8

16

36~

11

19

38

48~

11

30

60

60~

7

37

74

72~

5

42

84

84~

4

46

92

96~

2

48

96

108~120

2

50

100

合计

50

 

 

2.中位数和百分位数的应用  中位数常用描述偏态分布资料、开口资料和分布未明的资料。开口资料即数据的一端或两端无确切界限,不能求出均数和几何均数。而百分位数常用于确定医学参考值范围,当数据不呈正态分布时,样本含量要足够大,常取95%医学参考值范围。单侧过高为异常时取P95,过低为异常取P5,双侧取P2.5~P97. 5

动动脑筋吧:(1)请问M在什么时候等于`x?;(2)请问M是不就是P50。(3)请问集中趋势指标为什么要有`x、M、G三个呢,一个不就可以了吗?(答案在第六讲)

-----------------------------------(转载请注---吴劲松---9度数据分析网站http://www.9dudata.com/htm/index.asp)----------------------------

 

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有