基本统计量的计算与描述性分析_MichaelPan

http://blog.sina.com.cn/u/1993836693

首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

基本统计量的计算与描述性分析

(2011-08-16 15:39:16)

标签：

描述统计

均值

中位数

众数

百分位数据

方差

标准差

标准误

偏度

峰度

杂谈

分类： SPSS

1. 表示集中趋势的计量

1.1均值

a. 算数平均数 = 总体标志总量 / 总体单位总量

b. 调和平均数: 又称倒数平均数，它是根据各变量的倒数来计算的平均数。是各变量值倒数的算数平均数的倒数

c. 几何平均数：是计算平均比率或平均发展速度的最常用的统计量，几何平均数可以反映现象总体的一般水平

1.2 中位数

中位数是将总体单位总一变量的各变量值按大小排序后，处于序列中间位置的那个变量值。当变量个数为偶数时，中位数是位于中间位置的两个变量的算数平均数。

1.3 众数

众数是总体中出现次数最多的标志值。众数只有在总体上单位较多而又有明确的集中趋势的资料中才有意义。

1.4 百分位数

如果将一组数据排序，并计算相应的累计百分位，则某一百分位所对应数据的值就称为这一百分位的百分位数。百分位数适合于定序数据及更高级的数据，不能用于定类数据。百分位数的优点是不受极端值的影响。

2.表示离散趋势的统计量

2.1 方差与标准差

方差是总体各单位变量值与其算数平均数的离差的平方的数据平均数。方差的平方根就是标准差以σ表示。

与方差不同的是，标准差是具有量纲的，它与变量值的计量单位相同，其实际意义比方差清楚，

2.2 均值标准误差

均值标准误差就是标本均值的标准差，是描述样本均值和总体均值平均偏差程度的统计量

2.3 极差或范围

极差又称全距，它是总体单位中最大变量值与最小变量值之差，即两极之差。以R表示。

2.4 最大值

2.5 最小值

2.6 变异系数

变异系数是将标准差或平均差与其平均数对比度所得的比值，又称离散系数。最常用的变异系统就是标准差系数

3. 表示分布形态的统计量

3.1 偏度

偏度是对分布偏斜方向及程度的测度。常用三阶中心矩除以标准差的三次方，表示数据分布的相对偏斜程度记蒌a3。a3为正表示分布为右偏，值为负表示分布为左偏。

3.2 峰度

峰度是频数分布曲线与正态分布相比较，顶端的尖峭程度。统计上常用四阶中心矩测定峰度,记为a4.

当a4=3时，分布曲线为正态分布

当a4<3时，分布曲线为平峰分布

当a4>3时，分布曲线为尖峰分布

4.其它相关的统计量

4.1 Z标准化得分

Z标准化得分是某一数据与平均数的距离以标准差为单位的测量值。Z标准化数据越大，说明它离平均数越远。

SPSS提供的基本统计量可分为三类

一.描述集中趋势的统计量

均值(Mean):适用于数据均匀分布或正态分布
中位数(Median):适用于数据分布不对称或有极端值
众数(Mode):适用于初步认识一组数据
四分位数(Quartiles)
百分位数(Percentile Value)：通过计算百分位数可以了解某个值在集体中的位置

分析：

如果Median与Mode相差很大说明变量值中存在异常值

如果Mean和Median相差太大说明数据的分布是偏态的

二.描述离散程度的统计量

样本方差(Variance):用来度量随机变量与期望（均值）之间的偏离程度。http://s8/middle/76d78895gaaa9602cdfc7&690
样本标准差(Std. deviation):方差的算术平方根，可以当作不确定性的一种测量 http://s14/middle/76d78895gaaa9509ebd8d&690
均值标准误差(Standard Error of Mean):反映抽样误差大小的统计指标，是统计推算可靠性的指标。定义为各测量值误差的平方和的平均值的平方根，故又称为均方误差
极差(Range):反映总体的差异范围，R=最大值-最小值

三.描述总体分布形态的统计量

偏度(Skewness)也称偏斜度，描述数据分布的偏斜程度与方向

正态分布的偏度为0。

偏度值为正值，分布左偏，右侧有长尾

偏度值是负值，分布右偏，左侧有长尾

如果偏度值在-1到1之间，则表明数据分布近似对称

峰度(Kurtosis)是描述数据分布曲线陡峭平缓程度的统计量

正态分布的峰度值是0

峰度值为正，分布曲线比较陡峭，两端的尾部较长

峰度值为负，分布曲线比较平缓，两端的尾部较短

其它： 自由度degree of freedom（df），显著性水平singnificance(Sig)

自由度指计算某一统计量时取值不受限制的变量个数。df=n-k, n为样本含量,k为被限制的条件数或变量个数

显著性水平指估计总体参数落在某一区间内时可能犯错的概率，用a表示。其值越大则原假设被拒绝的可能性就越大。1-a为置信度或置信水平表明了区间估计的可靠性。K-S统计量时，如果显著性水平Sig<0.05时，拒绝正态分布假设

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report

前一篇：SPSS中对变量值重新编码代码示例

后一篇：探索分析

新浪BLOG意见反馈留言板　欢迎批评指正