加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

因子分析

(2009-01-11 21:07:26)
标签:

公因子

方差

主成分

巴特利特

教育

因子分析法的理论基础及其应用

 

 

 

【摘要】:因子分析是多元统计分析技术的一个分支,其主要目的是浓缩数。它通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个假想变量来表示基本的数据结构。因子分析就是研究如何以最少的信息丢失把众多的观测变量浓缩为少数几个因子。并通过实例了解因子分析的具体应用,熟练因子分析在SPSS上的具体操作以及掌握数据解释。

关键词因子分析法  理论基础   数据浓缩  SPSS

 

1、因子分析的起源

因子分析模型在形式上和多元回归模型相似,每个观测变量由一组因子的线性组合来表示。因子模型的一般表达式为:     

在该模型中:(1) 叫做公因子,它们是各个观测变量所共有的因子,解释了变量之间的相关。(2) 称为特殊因子,它是每个观测变量所特有的因子,表示该变量不能被公因子所解释的部分。(3) 称为因子负载,它是第 个变量在第 个公因子上的负载,相当于多元回归分析中的标准回归系数( )。2、因子分析的原理

2.1因子分析模型

因子分析模型在形式上和多元回归模型相似,每个观测变量由一组因子的线性组合来表示。因子模型的一般表达式为:     

在该模型中:(1)叫做公因子,它们是各个观测变量所共有的因子,解释了变量之间的相关。(2) 称为特殊因子,它是每个观测变量所特有的因子,表示该变量不能被公因子所解释的部分。(3) 称为因子负载,它是第 个变量在第 个公因子上的负载,相当于多元回归分析中的标准回归系数( )。

2.2因子分析的有关概念

因子负载:是因子分析模型中最重要的一个统计量,它是连接观测变量和公因子之间的纽带。当分因子之间完全不相关时,很容易证明因子负载 等于第 个变量和第 个因子之间的相关系数。因子负载不仅表示了观测变量是如何由因子线性表示的,而且反应了因子和变量之间的相关程度, 的绝对值越大,表示公因子 与变量 关系越密切。

公因子方差:也叫共同度,指观测变量方差中由公因子决定的比例。变量 的公因子方差记做 。当公因子之间彼此正交时,公因子方差等于和该变量有关的因子负载的平方和,用公式表示为:

因子的贡献:每个公因子对数据的解释能力,可以用该因子所解释的总方差来衡量,通常称为该因子的贡献,它等于和该因子有关的因子负载的平方和。

3、因子分析的具体步骤

3.1计算所有变量的相关矩阵

相关矩阵是因子分析直接要用的数据,根据计算出的相关矩阵还应该进一步判断应用因子分析方法是否合适。因子分析的目的是简化数据或者找出基本的数据结构,因此使用因子分析的前提条件是观测变量之间应该有较强的相关关系。如果变量之间的相关程度很小的话,它们不可能共享公因子。所以,计算出相关矩阵之后在进行下面的步骤之前应该对相关矩阵进行检验,如果相关矩阵中的大部分相关系数都小于0.3,则不适合做因子分析。一般用KMO测度和巴特利特球体检验来判断观测数据 是否适合做因子分析。一般情况KMO测度在0.6以上巴特利特球体检验显著,则观测数据适合做因子分析。

3.2提取因子

3.2.1主成分分析法

主成分分析是一种数学变换的方法,它把给定的一组相关变量通过线性变换转换成一组不相关的变量,这些新的变量按照方差依次递减的顺序排列。在数学变换中保持变量的总方差不变,使第一个变量具有最大的方差,称为第一主成分,第二个变量的方差次大,并且和第一个变量不相关,称为第二主成分,依次类推,K个变量就有K个主成分,最后一个主成分具有的方差最小,并且和前面的主成分不相关。

因子个数的确定:(1)特征值准则:取特征值大于等于1的主成分作为初始因子,放弃特征值小于1的主成分。(2)碎石检验准则:按照因子被提取的顺序,画出因子的特征值随因子个数变化的散点图,根据图的形状来判断因子的个数。该图的形状像一个山峰,从第一个因子开始,曲线迅速下降 ,然后下降变的平缓,最后变成近似一条直线,曲线变平开始的前一点认为是提取的最大因子个数。

3.2.2公因子分析法

公因子模型是从解释变量之间的相关关系出发的,假设观测变量之间的相关能完全被公因子解释,变量的方差不一定能完全被公因子解释,这样每个变量被公因子所解释的方差不再是1,而是公因子方差。所以公因子模型在求因子解时,指考虑公因子方差。

3.3进行因子旋转

初始因子解达到了数据化简的目的,在求初始因子解这一步中,确定了公因子数,确定了每个变量的公因子方差。但是根据初始因子解,往往很难解释因子的意义,大多数因子都和很多变量有关。因子是通过数学方法求解得到的,但研究人员往往很关心每个因子 的实际意义是什么,否则就很难理解和把握因子 分析的结果 。因子旋转是寻求这一实际意义的有效工具,因子旋转的目的是通过改变坐标轴的位置,重新分配各个因子所解释的方差的比例,使因子结构更简单,更易于解释。因子旋转不改变模型对数据的拟合程度,不改变每个变量的公因子方差。

3.3.1正交旋转

正交旋转是使因子轴之间仍然保持90度角,即因子之间是不相关的。正交旋转方法主要有三种:四次方最大法、方差最大法和等量最大法。最常用的是方差最大法,它从简化因子负载矩阵的每一列出发,使和每个因子有关的负载平方的方差最大。当只有少数几个变量在某个因子上有较高的负载时,对因子的解释是最简单的,和某个因子有关负载平方的方差最大时,因子具有最大的可解释性。

3.3.2斜交旋转方法

斜交旋转中,因子之间的夹角可以是任意的,即因子之间不一定是正交的,所以用斜交因子描述变量会使因子结构更为简洁。在斜交旋转中,因子负载不再等于因子和变量之间的相关系数,因子结构和因子模型之间是有区别的。

3.4计算因子值

如果我们要使用所提取的因子做其它研究,比如把得到的因子作为自变量来做回归分析对样本进行分类或评价,这些都需要对因子进行测度,给出因子对应每个样本案例上的值,这些值称为因子值。因子分析模型中,是用因子的线性组合来表示一个观测变量,因子负载实际是该线性组合的权数。求因子值的过程是通过观测变量的线性组合来表示因子,因子是观测变量的加权平均。因为各个变量在因子上的负载不同,所以不能把变量简单的相加,权数是我大小表示了变量对因子的重要程度。对于主成份分析法得到的因子解,可以直接得到因子值系数,对于其他方法得到的因子解,只能得到因子值系数的估计值,通常用回归方法得到因子值系数的估计值。

4、案例分析

4.1案例

调查20个地区小学生辍学率的影响因素,包括家庭经济状况、当地经济状况、自身心理素质、家庭成员素质、师资力量、社会文化趋向、身体健康状况、宏观教育背景、国家教育政策等指标、具体调查数据如下,根据这9项内容经行因子分析,得到维度较少的因子。

数据如下:

4.2结果分析

 

从上表可以得出,KMOKaiser-meyer-Olkin的取样适当性量数,当KMO值愈大时,表示变量的共同因素愈多,愈适合进行因素分析,根据学者Kaiser观点,如果KMO的值小于0.5时较不宜进行因素分析,此处的KMO值为.427,不太适合因子分析。巴特利特球行检验给出的相伴概率为0.000,小于显著性水平0.05,因此拒绝其零假设,认为可以做因子分析

 

 

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有