[转载]如何在回归分析中检验和解读交互影响?

标签:
转载 |
多元线线性回归中,自变量包含interaction terms时,求其回归系数B,应在SPSS中哪个模块,怎样操作?
首先假定读者已知什么是交互影响(interaction effects)和什么时候要用交互影响?如果不知,可跳过本贴,先学习一下有关基本知识。
什么时候用回归分析来检验交互影响?如下表所示,这由变量的测量层次决定:
|
自变量 |
|
因变量 |
Nominal |
Interval |
Nominal |
Loglinear Analysis |
Logistic Regression |
Interval |
ANOVA |
OLS Regression |
我们这里只讨论自变量和因变量均为定距变量的OLS回归分析(即大家通常所说的“回归分析”),但其操作和解读的所有原理同样适用于Logistic回归、解读的原理也适用于Loglinear分析和方差分析(ANOVA)。读者如果不知道如何操作Logistic回归、ANOVA或Loglinear分析,则也需要另外学习有关知识。
另外还要提一下,如果想检验的是隐含(latent)变量之间的交互影响,不要用SEM、而要用Partial Least Squares (PLS)分析。网上很难找到PLS的知识,我自己也从来没有用过,所以回答不了此类问题。但是,我用过SEM分析交互影响,除了用多组比较的方法之外,其它各种方法都很不成熟,不值得一试。
现在言归正题。为了便于说明,假定我们要分析的因变量为Y、自变量为X、调节变量(moderator)为Z、交互变量为XZ,其模型为:Y
= a
第一步、生成XZ(即X乘以Z)。
第二步、检查X、Z、XZ三者的相关系数。一般说来,不管X和Z是否相关,X和XZ、Z和XZ之间的相关关系会比较高(因为X和Z是XZ的组成部分),这会使得回归结果中的d值(见上述模型)的显著程度甚至正负方向都有问题,所以需要用第五步里介绍的方法来检验其显著程度;而如果X和XZ或Z和XZ的相关系数过高(如大于0.8),需要分别先对X和Z进行“中心化”(centering,即把X减去X的平均值、Z减去Z的平均值、然后将其结果相乘,具体需要另外学习有关知识),然后才来解读其正负方向(如下所示,d的正负方向很重要)。
第三步、建立“主影响(main
effects)模型”,即Y =
http://s2/mw690/001SKsYfgy6DPdfILbba1&690
注意图中的“Block1 of 1”和“Method = Enter”。前者指已输入的X和Z这两个Independent variables构成了第一模块(Block 1);而后者是将两个自变量同时、“强行”推入模型(这是最合理的进入方法、不要改成其它的选择)。选择完了,不要执行“OK”,而是继续第四步。
第四步、建立“交互影响模型”,其模型即Y =
a
http://s5/mw690/001SKsYfgy6DPdiCT8U94&690
注意这时只能将XZ加入,而不能将X或Z加入(因为这两者已在Block
1中出现了,不能出现两次)。需要说明的是model 与block的联系与区别。在第三步里的Model 1 和 Block
1是相同的,都是Y = a
第五步、执行回归分析,先点击Statistics,加选“R Squared Change”(以检验model 1与model 2 之间的差别),然后OK。
第六步、检验交互影响的显著度。在SPSS结果中,找到Model
Summary表,与常规的回归分析结果相比,多了“Change Statistics”一块,就是用来检验交互影响的。其中Model的R
Square指该模型的解释能力、而它的R Square
Change指该模型中新出现的Block(即其所包含的所有变量)的独立解释能力。如上所述,Model 1与Block
1是一回事,所以其R Square和R Square Change也是一样的。但Model 2与Block2则不一样,所以其R
Square指X、Z、XZ三者的共同解释力、而R Square Change(= Model 2的R Square - Model
1的R Square),与之相对应的Sig. F
有人也许会问,为何不用Coefficients表里XZ所对应的Sig来检验其显著性?这是因为如第二步中所指出的,X或Z与XZ往往高度相关,所以XZ的standard error会被虚假缩水、从而使得其Sig变得虚假提高(即其值变得更小),所以有很大的犯Type I error的风险,而R Square Change是不受其影响的。
第六步、解读交互影响的理论意义。做交互影响(即d)的人,一定已知道“d反映的是X对Y的影响随着Z的变化而调节”(d
describes the
其实这也有点抽象。为了便于理解,让我们来看一个(我随手编造)的实例。假定Y是知识、X是媒体接触、Z是对有关知识的兴趣。根据知识沟的差异理论(Difference Hypothesis for Knowledge)的说法,媒体接触对知识的影响不是单一的、而是受到其兴趣程度的制约的(即不同兴趣的人接触媒体相同、但也会获得不同的知识程度),那么就有必要检验媒体接触和兴趣的交互影响。假定按第三至第六步而算出 a = 2, b = 0.5, c =1, d = 0.3 (注意是正值),那么可以据此得到模型 Y = 2 + 0.5X + Z + 0.3XZ,如下面的左图所示;如果d = -0.3,那么就是以下右图所示。
http://s9/mw690/001SKsYfgy6DPdlPQIoe8&690
两图中的Z = 0 和Z = 1是人为设置的(不然没法画这两个图),可以将 Z = 0看作是毫无兴趣、Z = 1 是有高度兴趣(Z的其它值介于两者之间,这里就省略了)。
我们对所有的回归系数逐一解读。a = 2
的意思很简单:无兴趣的受众在没有接触任何媒体时的知识水平为2分(随意的测验尺度);而c = 1
则是说强兴趣
如果d = -0.3,其它系数的解读意义不变,而d则反映了强兴趣的媒体接触对知识的影响比前者小0.3分,也即强兴趣者每增加一小时的媒体接触,其知识水平提高(注意:还是提高)了 0.5 - 0.3 = 0.2分。从右图来看,两者的知识沟随着媒体接触的增加而缩小,即兴趣起到了平衡器(equalizer)的作用。在知识沟研究中,这是差异假设所希望看到的结果。