如何用SPSS进行多因素方差分析？_大数据时代

多因素方差分析是对一个独立变量是否受一个或多个因素或变量影响而进行的方差分析。SPSS调用“Univariate”过程，检验不同水平组合之间因变量均数，由于受不同因素影响是否有差异的问题。在这个过程中可以分析每一个因素的作用，也可以分析因素之间的交互作用，以及分析协方差，以及各因素变量与协变量之间的交互作用。该过程要求因变量是从多元正态总体随机采样得来，且总体中各单元的方差相同。但也可以通过方差齐次性检验选择均值比较结果。因变量和协变量必须是数值型变量，协变量与因变量不彼此独立。因素变量是分类变量，可以是数值型也可以是长度不超过8的字符型变量。固定因素变量(Fixed Factor)是反应处理的因素;随机因素是随机地从总体中抽取的因素。

[例子]

研究不同温度与不同湿度对粘虫发育历期的影响，得试验数据如表5-7。分析不同温度和湿度对粘虫发育历期的影响是否存在着显著性差异。

表5-7 不同温度与不同湿度粘虫发育历期表

相对湿度（%）	温度℃	重复
相对湿度（%）	温度℃	1	2	3	4
100	25	91.2	95.0	93.8	93.0
	27	87.6	84.7	81.2	82.4
	29	79.2	67.0	75.7	70.6
	31	65.2	63.3	63.6	63.3
80	25	93.2	89.3	95.1	95.5
	27	85.8	81.6	81.0	84.4
	29	79.0	70.8	67.7	78.8
	31	70.7	86.5	66.9	64.9
40	25	100.2	103.3	98.3	103.8
	27	90.6	91.7	94.5	92.2
	29	77.2	85.8	81.7	79.7
	31	73.6	73.2	76.4	72.5

数据保存在“DATA5-2.SAV”文件中，变量格式如图5-1。

1）准备分析数据

在数据编辑窗口中输入数据。建立因变量历期“历期”变量，因素变量温度“A”，湿度为“B”变量，重复变量“重复”。然后输入对应的数值，如图5-6所示。或者打开已存在的数据文件“DATA5-2.SAV”。

http://www.seekbio.com/UploadFiles/2013-04/2/20134140153473988.jpg
图5-6 数据输入格式

2）启动分析过程

点击主菜单“Analyze”项，在下拉菜单中点击“General Linear Model”项，在右拉式菜单中点击“Univariate”项，系统打开单因变量多因素方差分析设置窗口如图5-7。

http://www.seekbio.com/UploadFiles/2013-04/2/20134141456894465.jpg
图5-7 多因素方差分析窗口

3）设置分析变量

设置因变量: 在左边变量列表中选“历期”，用http://www.seekbio.com/UploadFiles/2013-04/2/20134146546378502.jpg向右拉按钮选入到“Dependent Variable：”框中。

设置因素变量: 在左边变量列表中选“a”和“b”变量，用http://www.seekbio.com/UploadFiles/2013-04/2/20134146546378502.jpg向右拉按钮移到“Fixed Factor(s):”框中。可以选择多个因素变量。由于内存容量的限制，选择的因素水平组合数(单元数)应该尽量少。

设置随机因素变量: 在左边变量列表中选“重复”变量，用向右拉按钮移到“到Random Factor(s)”框中。可以选择多个随机变量。

设置协变量：如果需要去除某个变量对因素变量的影响，可将这个变量移到“Covariate(s)”框中。

设置权重变量：如果需要分析权重变量的影响，将权重变量移到“WLS Weight”框中。

4）选择分析模型

在主对话框中单击“Model”按钮，打开“Univariate Model”对话框。见图5-8。

http://www.seekbio.com/UploadFiles/2013-04/2/20134145961828008.jpg

图5-8 “Univariate Model” 定义分析模型对话框

在Specify Model栏中，指定分析模型类型。

① Full Factorial选项

此项为系统默认的模型类型。该项选择建立全模型。全模型包括所有因素变量的主效应和所有的交互效应。例如有三个因素变量，全模型包括三个因素变量的主效应、两两的交互效应和三个因素的交互效应。选择该项后无需进行进一步的操作，即可单击“Continue”按钮返回主对话框。此项是系统缺省项。

② Custom选项

建立自定义的分析模型。选择了“Custom”后，原被屏蔽的“Factors & Covariates”、“Model”和“Build Term(s)”栏被激活。在“Factors & Covariates”框中自动列出可以作为因素变量的变量名，其变量名后面的括号中标有字母“F”；和可以作为协变量的变量名，其变量名后面的括号中标有字母“C”。这些变量都是由用户在主对话框中定义过的。根据表中列出的变量名建立模型，其方法如下：
在“Build Term(s)”栏右面的有一向下箭头按钮（下拉按钮），单击该按钮可以展开一小菜单，在下拉菜单中用鼠标单击某一项，下拉菜单收回，选中的交互类型占据矩形框。有如下几项选择：

Interaction 选中此项可以指定任意的交互效应；
Main effects 选中此项可以指定主效应；
All 2-way 指定所有2维交互效应；
All 3-way 指定所有3维交互效应；
All 4-way 指定所有4维交互效应
All 5-way 指定所有5维交互效应。

③ 建立分析模型中的主效应：

在“Build Term(s)”栏用下拉按钮选中主效应“Main effects”。

在变量列表栏用鼠标键单击某一个单个的因素变量名，该变量名背景将改变颜色(一般变为蓝色)，单击“Build Term(s)”栏中的右拉箭头按钮，该变量出现在“Model”框中。一个变量名占一行称为主效应项。欲在模型中包括几个主效应项，就进行几次如上的操作。也可以在标有“F”变量名中标记多个变量同时送到“Model”框中。

本例将“a”和“b”变量作为主效应，按上面的方法选送到“Model”框中。

④ 建立模型中的交互项

要求在分析模型中包括哪些变量的交互效应，可以通过如下的操作建立交互项。

例如，因素变量有“a(F)”和“b(F)”，建立它们之间的相互效应。

连续在“Factors &”框的变量表中单击“a(F)”和“b(F)”变量使其选中。
单击“Build Term(s)”栏内下拉按钮，选中交互效应“Interaction”项。
单击“Build Term(s)”栏内的右拉按钮，“a*b”交互效应就出现在“Model”框中，模型增加了一个交互效应项：a*b

⑤ Sum of squares 栏分解平方和的选择项

Type I项，分层处理平方和。仅对模型主效应之前的每项进行调整。一般适用于：平衡的AN0VA模型，在这个模型中一阶交互
效应前指定主效应，二阶交互效应前指定一阶交互效应，依次类推；多项式回归模型。嵌套模型是指第一效应嵌套在第二
效应里，第二效应嵌套在第三效应里，嵌套的形式可使用语句指定。
Type II项，对其他所有效应进行调整。一般适用于：平衡的AN0VA模型、主因子效应模型、回归模型、嵌套设计。
Type III项，是系统默认的处理方法。对其他任何效应均进行调整。它的优势是把所估计剩余常量也考虑到单元频数中。对没
有缺失单元格的不平衡模型也适用，一般适用于：Type I、Type II所列的模型：没有空单元格的平衡和不平衡模型。
Type IV顶，没有缺失单元的设计使用此方法对任何效应F计算平方和。如果F不包含在其他效应里，Type IV = Type IIIl =
TypeII。如果F包含在其他效应里，Type IV只对F的较高水平效应参数作对比。一般适用于：Type I、Type lI所列模型；
没有空单元的平衡和不平衡模型。

⑥ Include intercept in model栏选项

系统默认选项。通常截距包括在模型中。如果能假设数据通过原点，可以不包括截距，即不选择此项。

5）选择比较方法

在主对话框中单击“Contrasts”按钮，打开“Contrasts”比较设置对话框，如图5-9所示。

http://www.seekbio.com/UploadFiles/2013-04/2/20134144132127585.jpg
如图5-9 Contrasts对比设置框

在“Factors”框中显示出所有在主对话框中选中的因素变量。因素变量名后的括号中是当前的比较方法。

① 选择因子

在“Factors”框中选择想要改变比较方法的因子，即鼠标单击选中的因子。这一操作使“Change Contrast”栏中的各项被激活。

② 选择比较方法

单击“Contrast”参数框中的向下箭头，展开比较方法表。用鼠标单击选中的对照方法。可供选择的对照方法有：

None，不进行均数比较。
Deviation，除被忽略的水平外，比较预测变量或因素变量的每个水平的效应。可以选择“Last”(最后一个水平)或
“First”(第一个水平)作为忽略的水平。
Simple，除了作为参考的水平外，对预测变量或因素变量的每一水平都与参考水平进行比较。选择“Last”或“First”作为
参考水平。
Difference，对预测变量或因素每一水平的效应，除第一水平以外，都与其前面各水平的平均效应进行比较。与Helmert对照
方法相反。
Helmert，对预测变量或因素的效应，除最后一个以外，都与后续的各水平的平均效应相比较。
Repeated，对相邻的水平进行比较。对预测变量或因素的效应，除第一水平以外，对每一水平都与它前面的水平进行比较。
Polynomial，多项式比较。第一级自由度包括线性效应与预测变量或因素水平的交叉。第二级包括二次效应等。各水平彼此
的间隔被假设是均匀的。

③ 修改比较方法

先按步骤①选中因子变量，再选比较方法，然后单击“Change”按钮，选中的(或改变的)比较方法显示在步骤①选中的因子变量后面的括号中。

④设置比较的参考类

在“Reference Category”栏比较的参考类有两个，只有选择了“Deviation”或“Simple”方法时才需要选择参考水平。共有两种可能的选择，最后一个水平“Last”选项和第一水平“First”项。系统默认的参考水平是“Last”。

6) 选择均值图

在主对话框中单击“Plot”按钮，打开“Profile Plots”对话框，如图5-10所示。在该对话框中设置均值轮廓图。

http://www.seekbio.com/UploadFiles/2013-04/2/20134146743448490.jpg
如图5-10 “Profile Plots”对话框

均值轮廓图(Profile Plots)用于比较边际均值。轮廓图是线图，图中每个点表明因变量在因素变量每个水平上的边际均值的估计值。如果指定了协变量，该均值则是经过协变量调整的均值。因变量做轮廓图的纵轴；一个因素变量做横轴。

做单因素方差分析时，轮廓图表明该因素各水平的因变量均值。

双因素方差分析时，指定一个因素做横轴变量，另一个因素变量的每个水平产生不同的线。如果是三因素方差分析，可以指定第三个因素变量，该因素每个水平产生一个轮廓图。双因素或多因素轮廓图中的相互平行的线表明在因素间无交互效应；不平行的线表明有交互效应。

Factors 框中为因素变量列表。
Horlzontal Axis 横坐标框，选择选择“Factors”框中一个因素变量做横坐标变量。被选的变量名反向显示，单击向右拉箭
       头按钮，将变量名送入相应的横坐标轴框中。
           如果只想看该因素变量各水平的，因变量均值分布，单击“Add”按钮，将所选因素变量移入下面的“Plots”框中。否
       则，不点击“Add”按钮，接着做下步。
Separate Lines 分线框。如果想看两个因素变量组合的各单元格中因变量均值分布，或想看两个因变量间是否存在交互效应，
      选择“Factors”框中另一个因素变量，单击右拉按钮将变量名送入“Separate Lines”框中。单击“Add”按钮，将自动生成
      的图形表达式送入到“Plots”栏中。分线框中的变量的每个水平将在图中是一条线。图形表达式是用“*”连接的两个因素变
      量名。
Separate Plots 分图框。如果在“Factors”栏中还有因素变量，可以按上述方法，将其送入“Separate Plot”框中，单击
“Add”按钮，将自动生成的图形表达式送入到“Plots”栏中。图形表达式是用“*’连接的三个因素变量名。分图变量的每个
水平生成一张线图。
将图形表达式送到“Plots”框后发现有错误，单击选错的变量，单击“Remove”按钮，将其取消，再重新输入正确内容。

在检查无误后，按“Continue”按钮确认，返回到主对话框。如果取消做的设置单击“Cancel”按钮

7) 选择多重比较

在主对话框中单击“Post Hoc”选项，打开“Post Hoc Multiple Comparisons for Observed Means”对话框，从“Factor(s)”框选择变量，单击向右拉按钮，使被选变量进入“Post Hoc test for”框。本例子选择了“a”和“b”。

然后选择多重比较方法。在对话框中选择多重比较方法。本例子选择了“Duncan”和“Tamhane's T2”。

8）选择保存运算值

http://www.seekbio.com/UploadFiles/2013-04/2/20134142401826127.jpg
图5-11 Save对话框

在主对话框中，单击“Save”按钮，打开“Save”设置对话框，如图5-11所示。通过在对话框中的选择，可以将所计算的预测值、残差和检测值作为新的变量保存在编辑数据文件中。以便于在其他统计分析中使用这些值。

① Predicted Values 预测值

Unstsndardized，非标准化预测值。
Weighted，如果在主对话框中选择了WLS变量，选中该复选项，将保存加权非标准化预测值。
Standard error，预测值标准误。

② Diagnostics 诊断值

Cook’s distance，Cook 距离。
Leverage values，非中心化 Leverage 值。

③ Residuals 残差

Unstsndardized，非标准化残差值，观测值与预测值之差。
Weighted，如果在主对话框中选择了WLS变量，选中该复选项，将保存加权非标准化残差。
Standardized，标准化残差，又称Pearson残差。
Studentized，学生化残差。
Deleted，剔除残差，自变量值与校正预测值之差。

④ Save to New File 保存协方差矩阵

选中”Coefficient statistics”项，将参数协方差矩阵保存到一个新文件中。单击“File”按钮，打开相应的对话框将文件保存。

9）选择输出项

在主对话框中单击“Options”按钮，打开“Options”输出设置对话框，见图5-12。

http://www.seekbio.com/UploadFiles/2013-04/2/20134145547821600.jpg
图5-12 “Options”输出设置对话框

① Estimated Marginal Means 估测边际均值设置

在“Factor(s) and Factor Interactions”框中列出“Model”对话框中指定的效应项，在该框中选定因素变量的各种效应项，
单击右拉按钮就将其复制到“Display Means for”框中。选择主效应，则产生估计的边际均值表；选择二维交互效应产生的估计
边际均值表实际上是典型的单元格均值表。选择三维交互效应也是单元格均值表。
在“Display Means for”框中有主效应时激活此框下面的“Compare main effects”复选项，对主效应的边际均值进行组间的配
对比较。
Confidence interval adjustment参数框，进行多重组间比较。打开下拉菜单，共有三个选项：
LSD(none)、Bonferroni、Sidak.。

② 在“Display”栏中指定要求输出的统计量

http://www.seekbio.com/UploadFiles/2013-04/2/20134147885768563.jpg Descriptive statistics项，输出描述统计量：观测量的均值、标准差和每个单元格中的观测量数。

http://www.seekbio.com/UploadFiles/2013-04/2/20134147885768563.jpg Estimates of effect size项，效应量估计。选择此项，给出η2(eta-Square)值。它反应了每个效应与每个参数估计值可以归于
因素的总变异的大小。

http://www.seekbio.com/UploadFiles/2013-04/2/20134147885768563.jpg Observed power复选项，选中此项给出在假设是基于观测值时各种检验假设的功效。计算功效的显著性水平，系统默认的临界值
是0.05。

http://www.seekbio.com/UploadFiles/2013-04/2/20134147885768563.jpg Parameter estimates项。选择此项给出了各因素变量的模型参数估计、标准误、t检验的t值、显著性概率和95％的置信区间。

http://www.seekbio.com/UploadFiles/2013-04/2/20134147885768563.jpg Contrast coefficient matrix项，显示协方差矩阵。

http://www.seekbio.com/UploadFiles/2013-04/2/20134147885768563.jpg Homogeneity test项，方差齐次性检验。本例子选中该项。

http://www.seekbio.com/UploadFiles/2013-04/2/20134147885768563.jpg Spread vs.level plot项，绘制观测量均值对标准差和观测量均值对方差的图形。

http://www.seekbio.com/UploadFiles/2013-04/2/20134147885768563.jpg Residual plot项，绘制残差图。给出观测值、预测值散点图和观测量数目，观测量数目对标准化残差的散点图，加上正态和标准化
残差的正态概率图。

http://www.seekbio.com/UploadFiles/2013-04/2/20134147885768563.jpg Lack of fit项，检查独立变量和非独立变量间的关系是否被充分描述。

http://www.seekbio.com/UploadFiles/2013-04/2/20134147885768563.jpg General estimable function项，可以根据一般估计函数自定义假设检验。对比系数矩阵的行与一般估计函数是线性组合的。

③ Significance level 框设置

改变“Confidence intervals”框内多重比较的显著性水平。

10) 提交执行

设置完成后，在多因素方差分析窗口框中点击“OK”按钮，SPSS就会根据设置进行运算，并将结算结果输出到SPSS结果输出窗口中。

11) 结果与分析

主要输出结果：

http://www.seekbio.com/UploadFiles/2013-04/2/20134148720934058.jpg

http://www.seekbio.com/UploadFiles/2013-04/2/20134147131888878.jpg

http://www.seekbio.com/UploadFiles/2013-04/2/20134148648623191.jpg

结果分析:

方差不齐次性检验显著

表5-8 方差齐次性检验表明：方差不齐次性显著，p<0.05。

方差分析:

表5-9 主效应方差分析表：在表的左上方标明研究的对象是粘虫历期。

偏差来源和偏差平方和:

Source 列是偏差的来源。其次列是“Type III Sum of Squares”偏差平方和。
Corrected Model 校正模型，其偏差平方和等于两个主效应a、b平方和加上交互a*b的平方和之和。
Intercept 截距。
a 温度主效应，其偏差平方和反应的是不同温度造成对粘虫历期的差异。与b偏差平方相同均属于组间偏差平方和。
b 湿度主效应，其偏差平方和反应的是不同湿度计量造成的粘虫历期之差异。
a*b 温度和湿度交互效应，其偏差平方和反应的是不同温度和湿度共同造成的粘虫历期的差异。
Error 误差。其偏差平方和反应的是组内差异。也称组内偏差平方和。
Total 是偏差平方和在数值上等于截距、主效应、次效应和误差偏差平方和之总和。
Corrected Total 校正总和。其偏差平方和等于校正模型与误差之偏差平方和之总和。
df 自由度
Mean Square 均方，数值上等于偏差平方和除以相应的自由度。
F 值，是各效应项与误差项的均方之比值
Sig 进行F检验的p值。p≤0.05，由此得出“温度”和“湿度”对因变量“粘虫历期”在0.05水平上是有显著性差异的。

根据方差分析表明：

不同温度（a）对粘虫历期的偏差均方是1575.434，F值为90.882，显著性水平是0.000，即p<0.05存在显著性差异；
不同湿度（b）对粘虫历期的偏差均方是322.000，F值为18.575，显著性水平是0.000，即p<0.05存在显著性差异；
不同温度和不同湿度（a*b）共同对粘虫历期的偏差均方是19.809，F值为1.143，显著性水平是0.358，即p>0.05存在不显著性差异。cda数据分析培训

多重比较

由于方差不齐次性，应选择方差不具有齐次性时的“Tamhane's T2”t检验进行配对比较。表5-10 多重比较表就是“温度”各水平“Tamhane's T2”方法比较的结果。表中的各项说明参见表5-6（5.2.2节）。

温度25℃与27℃、29℃和31℃之间都有显著性差异；
温度27℃与25℃、29℃和31℃之间都有显著性差异；
温度29℃与26℃和27℃之间都有显著性差异；与31℃无显著性差异；
温度31℃与25℃和27℃之间都有显著性差异；与29℃无显著性差异。

不同湿度水平之间无显著性差异存在，这里没有列出多重比较表。

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report

前一篇：R语言之纵向数据分析：多级线性增长模型2

后一篇：数据分析师之数据分析入门

新浪BLOG意见反馈留言板　欢迎批评指正