描述数据分布特征的统计量可分为4类:1表示数量的中心位置,2表示数量的离散程度,3表示偏离对称的程度,4表示数据集中,离心程度。
以下括号中的英文,前为Excel中的函数或表示名称,后为SPSS中的表示名称。
1. 中心位置的指标:
算数平均数(AVERAGE,
Mean),均值没什么说的,Excel中有个加权平均值。
举例说明:第一次买了10个包子,一个1元,第二次买了20个包子,一个1.5元。那么平均数计算价格不合适的。加权平均数:
(1.0*10+1.5*20)/(10+20)。在Excel中用函数[=SUMPRODUCT(A2:A3,B2:B3)/SUM(B2:B3)
A1:价格 B1:数量
A2:1.0 B2: 10
A3:1.5 B3: 20
中位数(MEDIAN,
Median),从小到大排列,中间位置的数据,如果个数为偶数,则取平均值。
众数(MODE,
Mode),出现次数最多的值,不受极端情况的影响(跳跃式的噪音数据),比如鞋子的尺寸就是一个众数很好的应用。
2. 离散程度的指标:
极差(R,
Range),范围,最大值-最小值。
方差(VARP,
Variance):
-
总体方差,总体每个值与总体平均值X的差的平方和除以样本总体个数N。
-
样本方差,样本每个值与样本平均值x的差的平方和除以样本个数n-1。
之所以平方,是因为Xi-X有正有负,正负抵消不能正确表达离散程度。这也是为什么平均差没有意义的原因。
标准差(STDEVP,
Std.deviation)是方差的平方根,对于单峰分布,99%以上的数据是在[X-3*标准差,X+3*标准差]区间,可以用来判断生产是否异常,剔除异常数据。
标准差可以看成什么?正因为平方根,所以标准差是一种测量分散度。样本中数值和平均值之间的差距的程度。这种差距是和样本中数值等单位的。
均值标准误差(未发现,
S.E.mean),从总体N中抽样n,有多种抽样样本。得到的若干抽样均值,与总体的均值存在不同的差异。描述这些样本均值与总体均值之间平均差异程度的统计量。等于标准差除样本总量的开方。
3. 偏斜程度的指标:
偏离正态分布对称的程度。反映图像是对称分布,左偏(<0),右偏(>0)。
4. 峰度的指标:
反映图像峰形的尖平程度,>0集中趋势强,峰尖高;
<0离心趋势强,峰平。
接下来介绍SPSS和Excel中统计分析的具体操作。
加载中,请稍候......