标签:
杂谈 |
分类: 技术 |
(二) 结构方程模型的前提假定
如前所述,结构方程模型在应用上的限制相对已经较少了,但是它和其他的多变量分析技术一样,在实际应用的时候,仍然有其特定的前提假定必须遵守。
(1) 结构方程模型里面的「可观测变量」必须服从正态分布。
由于在估计结构方程模型的拟合指标时,我们所采用的最基本工具是卡方检定 (chi-square test),卡方检定对于变量的正态性 (normality) 十分敏感,即使轻微的违背这个要求,都可能导致卡方检定结果发生很大的偏差。同时,大多数结构方程模型在估计参数时所采用的方法都是「极大似然估计法」,这方法在应用时的基本前提也是变量的正态性,尤其对于模型中「内生变量 (endogenous variables)」的正态性更是严格要求,因此「可观测变量」服从正态分布,是进行结构方程模型时不可回避的必要条件。这里补充说明一下,如果「可观测变量」不服从正态分布,但是其残差却:(a) 服从正态分布,(b) 所有残差的方差都很接近(代表残差同质),(c) 残差间彼此独立(也就是不相关),这时卡方的估计结果还是不偏的。不过这三个条件看来比要求「可观测变量」服从正态分布还要困难。
在实务上,避免违背这个条件的简易方法,首先就是尽可能不去使用「顺序尺度 (ordinal scale)」或是「名目尺度 (nominal scale)」这种「类别的」,或是「离散的」变量衡量方法。其次,在万不得已必须使用类别型变量衡量的时候,还可以选用一些「转换 (transformation)」技术,来「正态化 (normalize)」那些有问题的变量。所谓「转换」,就是根据变量的分布特征,通过数学代换,将原本不属于正态分布的变量,设法将之转变成具有正态分布性质的变量。常见的转换技术包括:取平方根 (square root)、取自然对数 (logarithmic)、或是函数1/x反转 (inverse)等等,其中函数反转优于取自然对数,自然对数又优于取平方根。
例如,对于服从「卜瓦松 (Poisson)」分布的变量,我们通常直接对它取平方根,即可赋予变量正态分布的特征;对于百分比形式的变量,「反正弦 (arcsine )」处理也许是个好方法;对于二项式分布的变量,通常使用的方法是通过「胜率 (Odds)」转换成概率后,再利用自然对数函数log(p/(1-p))进行转换;对于「韦布 (Weibull)」型「极值分布 (extreme value distribution)」形式的变量,则使用反转函数log(-log(1-x))进行转换。无论如何,这些变量转换必须有根有据,确实依据数学原理让变量获得正态分布的性质,否则再怎么奇巧转换也是无益的。最后,当然还需要利用一些统计方法,来验证模型中所使用的「可观测变量」的正态性。这些方法包括QQ-plot,Shapiro-Wilk Statistic,或是Kolmogorov-Smirnov Statistic等等,兹不赘叙。
(2) 结构方程模型里面作为「因变量」的「潜变量」必须服从正态分布。
所以结构模型里面,所有的「因变量」都不可以被设计成类别型变量的形式。如果万不得已必须使用类别衡量的变量作为因变量,那么必须改用「类别型潜变量分析 (latent class analysis: LCA)」方法处理,一般的结构方程模型软件并不能处理这种问题。坊间存在若干特殊的统计软件是专门用来处理这种类别型潜变量问题的,例如Statistical Innovations公司的Latent GOLD软件(商业软件),或是Jeroen Vermunt博士的LEM(自由软件)。
(3) 线性关系的假定
结构方程模型预设了所有的「可观测变量」和它们所属的「潜变量」之间,以及「潜变量」和「潜变量」之间的关系,都必须是线性的。不过这倒不至于构成太严重的限制,因为就和一般的回归分析一样,对于我们所假定的变量间的非线性关系,我们仍然可以针对变量进行函数转换,来适应这个变量间必须是线性的要求。
(4) 潜变量的假定
在结构方程模型里面,我们基本上假定所有的路径关系,都只能采用非直接衡量的方式加以处理,也就是只存在「潜变量路径分析」。
(5) 多元的可观测变量
在结构方程模型中,所有的「潜变量」都必需由至少三个以上的「可观测变量」来加以描述,如果只有一个「可观测变量」在解释着某个特定的「潜变量」,那么这就不是结构方程模型,而是回归分析。如果只有两个「可观测变量」在解释着某个特定的「潜变量」,那么在模型中,这两个「可观测变量」必须被正式地表述 (specify)为相关,通过对这个相关的估计(等于新增一个可观测变量),才能够避免因为「可观测变量」不足所导致的「识别不足 (under identification)」问题,如果「识别不足」,则模型将受制于自由度不足而无法求解,连带的,当然也无法估计模型的「拟合指标」。
一个衡量模型至少必须满足「恰好识别 (just identification)」的条件才可能求解。「恰好识别」的模型又称为「饱和模型 (saturated model)」,也就是模型所构造的协方差矩阵(港台称为共变异矩阵,covariance matrix)中的元素数量,刚好和所需要估计的参数数量相等,这时在估计参数的时候,刚好用尽了所有的自由度,所以参数虽然可以被估计出来,但是却也因此而无法估计「拟合指标」,因为没有自由度的估计,其实就等于是真实的计算,也就是百分之一百的拟合,或者这么说,其实根本就没有拟合的概念可言。在这样的情形下,用来估计结构方程模型的软件,不论是Lisrel还是AMOS,都将会报告自由度为0,卡方值为0,同时无法计算显著水平。
研究者真正想要的其实是「过度识别 (over identification)」,「过度识别」代表已知变量间的协方差数量,大于未知的待估计参数的数量,所以这时模型的自由度将会是正的数值,我们才能够应用结构方程模型的软件来估计参数,同时计算出模型的各种「拟合指标」来。事实上由信度的立场来看这个问题,越多的「可观测变量」通常其结构信度也较佳,这可由Cronbach's alpha信赖系数的计算即可清晰观察出来,在同一个构念中,当我们放入的近似的衡量题项愈多,Cronbach's alpha的值很容易就可以升高。
所以在构造衡量题项的时候,最好尽可能从多维度多视角的多元观点来广泛采纳「可观测变量」,不要吝惜于「可观测变量」被纳入研究工具中的数量。毕竟在研究工具接受前测中效度信度检查的时候,就可能开始删减题项了,再加上田野调查之后,根据大规模数据进行衡量模型的效度信度检查时,还可能继续删减题项,如果原始题项不足,在最后的结构模型分析阶段,就很可能发生「识别不足」或是「恰好识别」的问题,为研究过程带来无谓的麻烦。

加载中…