加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

[转载]如何在回归分析中检验和解读交互影响?

(2015-09-01 23:34:46)
标签:

转载

多元线线性回归中,自变量包含interaction terms时,求其回归系数B,应在SPSS中哪个模块,怎样操作?

首先假定读者已知什么是交互影响(interaction effects)和什么时候要用交互影响?如果不知,可跳过本贴,先学习一下有关基本知识。

什么时候用回归分析来检验交互影响?如下表所示,这由变量的测量层次决定:

 

自变量

因变量

Nominal

Interval

Nominal

Loglinear Analysis

Logistic Regression

Interval

ANOVA

OLS Regression

 

我们这里只讨论自变量和因变量均为定距变量的OLS回归分析(即大家通常所说的“回归分析”),但其操作和解读的所有原理同样适用于Logistic回归、解读的原理也适用于Loglinear分析和方差分析(ANOVA)。读者如果不知道如何操作Logistic回归、ANOVA或Loglinear分析,则也需要另外学习有关知识。

另外还要提一下,如果想检验的是隐含(latent)变量之间的交互影响,不要用SEM、而要用Partial Least Squares (PLS)分析。网上很难找到PLS的知识,我自己也从来没有用过,所以回答不了此类问题。但是,我用过SEM分析交互影响,除了用多组比较的方法之外,其它各种方法都很不成熟,不值得一试。

现在言归正题。为了便于说明,假定我们要分析的因变量为Y、自变量为X、调节变量(moderator)为Z、交互变量为XZ,其模型为:Y = a + bX + cZ + dXZ。其中的d即是张力提到的B,也是L君想知道如何解读的。我们一步步来做:

第一步、生成XZ(即X乘以Z)。

第二步、检查X、Z、XZ三者的相关系数。一般说来,不管X和Z是否相关,X和XZ、Z和XZ之间的相关关系会比较高(因为X和Z是XZ的组成部分),这会使得回归结果中的d值(见上述模型)的显著程度甚至正负方向都有问题,所以需要用第五步里介绍的方法来检验其显著程度;而如果X和XZ或Z和XZ的相关系数过高(如大于0.8),需要分别先对X和Z进行“中心化”(centering,即把X减去X的平均值、Z减去Z的平均值、然后将其结果相乘,具体需要另外学习有关知识),然后才来解读其正负方向(如下所示,d的正负方向很重要)。

第三步、建立“主影响(main effects)模型”,即Y = + bX + cZ,这里的b和c就是描述了自变量X和调节变量Z各自的主影响。在SPSS的回归分析中的选项为:

http://s2/mw690/001SKsYfgy6DPdfILbba1&690

 

注意图中的“Block1 of 1”和“Method = Enter”。前者指已输入的X和Z这两个Independent variables构成了第一模块(Block 1);而后者是将两个自变量同时、“强行”推入模型(这是最合理的进入方法、不要改成其它的选择)。选择完了,不要执行“OK”,而是继续第四步。

第四步、建立“交互影响模型”,其模型即Y = a + bX + cZ + dXZ。但在SPSS中,是紧接着第三步的同一个回归分析,即点击“Block 1 of 1”下面的“Next”,然后将XZ加入Independent的窗口:

http://s5/mw690/001SKsYfgy6DPdiCT8U94&690

 

注意这时只能将XZ加入,而不能将X或Z加入(因为这两者已在Block 1中出现了,不能出现两次)。需要说明的是model 与block的联系与区别。在第三步里的Model 1 和 Block 1是相同的,都是Y = a + bX + cZ。而在第四步中,Model 2 是Y = a + bX + cZ + dXZ,而Block 2则只有 dXZ这一项。这种区别在理解第五步时很重要。

第五步、执行回归分析,先点击Statistics,加选“R Squared Change”(以检验model 1与model 2 之间的差别),然后OK。

第六步、检验交互影响的显著度。在SPSS结果中,找到Model Summary表,与常规的回归分析结果相比,多了“Change Statistics”一块,就是用来检验交互影响的。其中Model的R Square指该模型的解释能力、而它的R Square Change指该模型中新出现的Block(即其所包含的所有变量)的独立解释能力。如上所述,Model 1与Block 1是一回事,所以其R Square和R Square Change也是一样的。但Model 2与Block2则不一样,所以其R Square指X、Z、XZ三者的共同解释力、而R Square Change(= Model 2的R Square - Model 1的R Square),与之相对应的Sig. F Change就是该R Square Change(也即Block 2,或XZ)的显著性检验。

有人也许会问,为何不用Coefficients表里XZ所对应的Sig来检验其显著性?这是因为如第二步中所指出的,X或Z与XZ往往高度相关,所以XZ的standard error会被虚假缩水、从而使得其Sig变得虚假提高(即其值变得更小),所以有很大的犯Type I error的风险,而R Square Change是不受其影响的。

第六步、解读交互影响的理论意义。做交互影响(即d)的人,一定已知道“d反映的是X对Y的影响随着Z的变化而调节”(d describes the effect of X on Y as moderated by Z) 之类的定义。具体来说,如果d > 0,X 对Y的影响(即b)会随着Z的增加而增加;如果d < 0, X 对Y的影响(即b)会随着Z的增加而减少。

其实这也有点抽象。为了便于理解,让我们来看一个(我随手编造)的实例。假定Y是知识、X是媒体接触、Z是对有关知识的兴趣。根据知识沟的差异理论(Difference Hypothesis for Knowledge)的说法,媒体接触对知识的影响不是单一的、而是受到其兴趣程度的制约的(即不同兴趣的人接触媒体相同、但也会获得不同的知识程度),那么就有必要检验媒体接触和兴趣的交互影响。假定按第三至第六步而算出 a = 2, b = 0.5, c =1, d = 0.3 (注意是正值),那么可以据此得到模型 Y = 2 + 0.5X + Z + 0.3XZ,如下面的左图所示;如果d = -0.3,那么就是以下右图所示。

http://s9/mw690/001SKsYfgy6DPdlPQIoe8&690

 

两图中的Z = 0 和Z = 1是人为设置的(不然没法画这两个图),可以将 Z = 0看作是毫无兴趣、Z = 1 是有高度兴趣(Z的其它值介于两者之间,这里就省略了)。

我们对所有的回归系数逐一解读。a = 2 的意思很简单:无兴趣的受众在没有接触任何媒体时的知识水平为2分(随意的测验尺度);而c = 1 则是说强兴趣 者在没有接触媒体是的知识水平比前者高1分(即总分为3);b = 0.5表明无兴趣者每增加一小时的媒体接触,其知识水平提高0.5分;而d = +0.3,则说明强兴趣的媒体接触对知识的影响比前者大0.3分,也即强兴趣者每增加一小时的媒体接触,其知识水平提高0.5 + 0.3 = 0.8分。从左图来看,两者的知识沟随着媒体接触的增加而扩大,即兴趣起到了放大器(amplifier)的作用。这正是经典的知识沟理论所预测的那样。

如果d = -0.3,其它系数的解读意义不变,而d则反映了强兴趣的媒体接触对知识的影响比前者小0.3分,也即强兴趣者每增加一小时的媒体接触,其知识水平提高(注意:还是提高)了 0.5 - 0.3 = 0.2分。从右图来看,两者的知识沟随着媒体接触的增加而缩小,即兴趣起到了平衡器(equalizer)的作用。在知识沟研究中,这是差异假设所希望看到的结果。




0

  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有