加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

SPSS学习:第五讲  基本统计分析

(2011-04-14 23:52:26)
标签:

教育

分类: 统计方法


一、常用统计量介绍

1.平均数(average)

1)Mean:算术平均数。最常见的集中趋势量,多用于对对称分布尤其是正态分布数据集的描述,不适用于偏态分布的数据集。

2)Harmonic Mean:调和平均数。在样本容量不等的情况下估计平均样本容量时是比较有用的。其等于样本个数除以各样本容量倒数之和。

3)Geometric Mean:几何平均数。在描述呈倍数关系的等比数据或对数正态分布的数据时比较有用。其等于n个数据乘积的n次方根。在应用中要注意数据不能同时有正有负。

4)median:中位数

中位数是数据的位置平均数,用于描述偏态分布资料的集中位置。它不受两端特大、特小值的影响,并且当分布两端无确切数据时也可计算出来。

5)Mode:众数

6)Std. Error of Mean:均值标准误。由于抽样等原因,使得样本数据不一定能准确反映总体。均值的标准误就是用来度量样本平均数与总体平均数之间的平均差异程度的统计量。

一般来讲,若某一均值与理论均值的差值除以标准误得数的绝对值大于2,则基本上认为该均值是不可接受的。

2.Kurtosis(峰度系数)、Std. Error of Kurtosis(峰度标准误)

峰度系数用来度量数据在中心聚集程度。在正态分布情况下,峰度系数值是0。正的峰度系数说明观察量更集中,有比正态分布更长的尾部;负的峰度系数说明观测量不那么集中,有比正态分布更短的尾部,类似于矩形的均匀分布。

峰度系数的标准误用来判断分布的正态性。峰度系数与其标准误的比值用来检验正态性。如果该比值绝对值大于2,将拒绝正态性。

3.Skewness(偏度系数)、Std. Error of Skewness(偏度标准误)

偏度系数用来度量分布是否对称。正态分布左右是对称的,偏度系数为0。较大的正值表明该分布具有右侧较长尾部。较大的负值表明有左侧较长尾部。偏度系数与其标准误的比值同样可以用来检验正态性。如果其比值绝对值大于2,可以认为拒绝了正态性。

4.百分位数(percentile)

百分位数是资料分布数列的百等份值,用于描述样本或总体观测值序列某百分位置的水平。四分位数(quartile)是特定的百分位数。

5.极差(range)

又称全距,即最大值和最小值的差。它受极值的影响大,不十分稳定。

    6.四分位数间距(IQR)

    四分位数中,P25为下四分位数Ql,P75为上四分位数Qu。四分位数间距即Qu-Ql。四分位数间距比极差稳定,但仍未考虑每个数据的变异程度。

7.方差(variance)、标准差(Std. Deviation)

方差与标准差能反映整个资料的变异程度。标准差用于描述变量值的离散程度,可以反映数据分布情况,计算参考值范围。

二、Reports过程

1、OLAP Cubes:联线式分析处理块

功能:同组变量内各变量统计量小结;

命令:Analyze-Reports-OLAP Cubes;

2、Case Summaries:观测量列表

功能:了解数据结构;检查数据;阶段列表观察;

命令:Analyze-Reports-Case Summarize;

3、Report Summaries in Rows(Columns)行(列)形式报表

功能:不同格式的报表;

命令:Analyze-Reports-Report Summaries in Rows(Columns)

三、Descriptive Statistics过程

1、Frequencies:单变量频数分析

功能:变量值频数;简单分布;

命令:Analyze-Descriptive Statistics-Frequencies

2、Descriptive:描述分析

功能:变量的描述统计量;

命令:Analyze-Descriptive Statistics-Descriptives

3、Explore:探索分析

功能:指定变量的综合描述统计量;整体分析、分组分析;箱形图、直方图、正态检验等方法;

命令:Analyze-Descriptive Statistics-Explore

四、Crosstab:交叉表分析

Crosstabs过程用于对计数资料和有序分类资料进行统计描述和简单的统计推断。在分析时可以产生二维至n维列联表,并计算相应的百分数指标。统计推断则包括了我们常用的X2检验、Kappa值等。

Crosstabs过程不能产生一维频数表(单变量频数表),该功能由Frequencies过程实现。

Rows框】用于选择行*列表中的行变量。

Columns框】用于选择行*列表中的列变量。

Layer框】Layer指的是层,对话框中的许多设置都可以分层设定,在同一层中的变量使用相同的设置,而不同层中的变量分别使用各自层的设置。如果要让不同的变量做不同的分析,则将其选入Layer框,并用Previous和Next钮设为不同层。Layer在这里用的比较少,在多元回归中我们将进行详细的解释。

Display clustered bar charts复选框】显示重叠条图。

Suppress table复选框】禁止在结果中输出行*列表。

Exact钮】针对2*2以上的行*列表设定计算确切概率的方法,可以是不计算(Asymptotic only)、蒙特卡罗模拟(Monte Carlo)或确切计算(Exact)。蒙特卡罗模拟默认进行10000次模拟,给出99%可信区间;确切计算默认计算时间限制在5分钟内。这些默认值均可更改。(如果在安装SPSS时没有安装EXACT模块,则此处对话框中不会出现Exact钮。)

Statistics钮】弹出Statistics对话框,用于定义所需计算的统计量。

1.       Chi-square复选框:计算X2值。

2.       Correlations复选框:计算行、列两变量的Pearson相关系数和Spearman等级相关系数。

3.       Norminal复选框组:选择是否输出反映分类资料相关性的指标,很少使用。

a.     Contingency coefficient复选框:即列联系数,其值界于0~1之间;

b.     Phi and Cramer's V复选框:这两者也是基于X2值的,Phi在四格表X2检验中界于-1~1之间,在R*C表X2检验中界于0~1之间;Cramer's V 则界于0~1之间;

c.     Lambda复选框:在自变量预测中用于反映比例缩减误差,其值为1时表明自变量预测应变量好,为0时表明自变量预测应变量差;

d.     Uncertainty coefficient复选框:不确定系数,以熵为标准的比例缩减误差,其值接近1时表明后一变量的信息很大程度来自前一变量,其值接近0时表明后一变量的信息与前一变量无关。

4.Ordinal复选框组:选择是否输出反映有序分类资料相关性的指标,很少使用。

a.     Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;

b.     Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;

c.     Kendall's tau-b复选框:界于-1~1之间;

d.     Kendall's tau-c复选框:界于-1~1之间;

5.Eta复选框:计算Eta值,其平方值可认为是应变量受不同因素影响所致方差的比例;

6.Kappa复选框:计算Kappa值,即内部一致性系数;

7.Risk复选框:计算比数比OR值;

8.McNemanr复选框:进行McNemanr检验(一种非参检验);

9.Cochran's and Mantel-Haenszel statistics复选框:计算X2M-H统计量(分层X2,也有写为X2CMH的),可在下方输出H0假设的OR值,默认为1。

Cells钮】弹出Cells对话框,用于定义列联表单元格中需要计算的指标:

1.Counts复选框组:是否输出实际观察数(Observed)和理论数(Expected);

2.Percentages复选框组:是否输出行百分数(Row)、列百分数(Column)以及合计百分数(Total);

3Residuals复选框组:选择残差的显示方式,可以是实际数与理论数的差值(Unstandardized)、标化后的差值(Standardized,实际数与理论数的差值除理论数),或者由标准误确立的单元格残差(Adj. Standardized);

Format钮】用于选择行变量是升序还是降序排列。

 

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有