SPSS-探索性分析过程

标签:
杂谈 |
分类: 数学哲学 |
SPSS-探索性分析过程
探索性分析过程——指对数据的探索与考察。通过对数据的分析,寻求和确定适合所研究问题的统计方法。探索过程提供了关于数据的概括分析和图表直观描述的方法,不仅对个案数据有效,且可以针对分组个案。探索过程的因变量须是定距型变量,分组变量可以是定序型或定类型变量。
1、对数据进行初步考察
考察数据中是否有明显不合理的数值,通常是过大或过小的极端值(extreme values)以及不符合现实的离群点(outliers)。通过分析原因,决定是否从数据文件中剔除或者进行相关处理。
2、对数据分布的假设检验
在统计分析理论中,要求对数据的分布有一定要求。
线性回归分析中要求残差服从均值为0的正态分布。
两组数据之间的分析需要两组数据来自于方差相等的总体。因为需要考察数据的方差齐性。
从理论上说,是否满足某种假设决定分析问题时选用的统计方法。
3、对数据的直观初步分析
对于分组数据和不分组的数据,可以利用SPSS提供的各种描述统计量和图表进行直观分析。
探索分析过程:Analyze→Descriptive Statistics→Explore
http://s9/middle/6e5f74c6gbbadad33d7a8&690
Dependent List——因变量列表,为待探索分析的变量,须为数值型变量
Factor List——因素列表,实际上是分组变量,可以选择多个变量。变量一般为定序型或定类型变量,也可以是定距型变量。探索分析是对因变量根据不同的分组进行分析的。
Label Cases by——个案标签,用于出现异常值时,利用其作标识。如果不选该项,系统自动寻找id变量作为标签变量。
http://s5/middle/6e5f74c6gbbadaedbffa4&690
Confidence Interval for Mean——均值的置信区间,可以输入1~99。
选择Descriptives时,要求输出描述性统计量,包括均值、中位数、5%的调整均值、标准误差、方差、标准差、最大值、最小值、极差、4分位数、风度、偏度。
M-estimators——M-估计,可以输出4种稳健极大似然估计量。对于长尾对称分布或数据有极端异常值时,利用稳健估计量估计总体均值要比样本均值或中位数有更好的稳定性。根据样本值的权重不同,可以得到不同的估计量,主要有4种,其中包括稳健估计量(Huber)、非降稳健估计量(Hampel)、波估计量(Andrew)、复权重估计量(Tukey)。
Outliers——离群点,输出包括5个最大值和最小值
Percentiles——输出结果显示5%、10%、25%、50%、75%、90%、95%百分位数。
http://s10/middle/6e5f74c6gbbadb099ef09&690
Boxplots——箱图
Factor levels together——表示不同分组的同一因变量显示在一个箱图中,用于比较同一因变量在分组变量值的不同水平上的值的分布情况
Dependents together——表示在同一组的不同因变量显示在一个箱图中,用于比较同一分组水平下不同变量的值的分布
None——表示不显示箱图
Stem-and-leaf——表示显示茎叶图
Histogram——表示显示直方图
Normality plots with tests——表示显示正态分布和无趋势正态分布概率图,并计算和显示在Lilliefors显著性水平下,正态总体检验的Kolmogorov-Smirnov统计量。如果加权样本容量在3~500之间还计算Shapiro-Wilk统计量,这种情况也适合于不加权或整数加权时的情况。
Spread vs Level with Levene Test——用于数据转换的散布对水平图的设置。对于所有的散布水平图,显示数据转换后的回归曲线的斜率和方差齐性的Levene稳健检验。
None——表示不产生散布-层次图和方差齐性的Levene检验
Power estimation——功效估计。表示显示4分位数间距的自然对数和所有单元格中位数的自然对数的散布图,同时还显示单元格满足方差齐性的功效转换估计值。
Transformed——转化功能。选择转换函数后,可以产生转换后的数据散布图。
Natural log——自然对数
1/Square root——平方根的倒数
Reciprocal——倒数
Square root——平方根
Square——平方
Cubic——立方
Untransformed——表示数据不进行转换,产生原始数据的散布图
http://s7/bmiddle/6e5f74c6gbbadb3ae45b6&690
Exclude cases listwise——表示对所有的分析中,剔除分组变量和因变量中的缺失值的个案
Exclude cases pairwise——剔除当前分析中的缺失值个案
Report values——表示将分组变量的缺失值单独分为一组,并用频数表输出。