数据分析实验报告(主成分分析与因子分析 )
(2010-12-22 20:50:21)
标签:
数据分析实验报告主成分分析因子分析spss杂谈 |
分类: 学习资料 |
好多输出 贴不上去,不好意思啊
浙江理工大学
实 验 报 告
实验项目名称
所属课程名称
实 验 类 型
实 验 日 期
班
学
姓
成
【实验目的及要求】
掌握主成分分析与因子分析的思想和具体步骤。掌握SPSS实现主成分分析与因子分析的具体操作。
【实验原理】
1.主成分分析的主要目的是希望用较少的变量去解释原来资料中的大部分变异,将我们手中许多相关性很高的变量转化成彼此相互独立或不相关的变量。通常是选出比原始变量个数少,能解释大部分资料中的变异的几个新变量,即所谓主成分,并用以解释资料的综合性指标。由此可见,主成分分析实际上是一种降维方法。
2.因子分析研究相关矩阵或协方差矩阵的内部依赖关系,它将多个变量综合为少数几个因子,以再现原始变量与因子之间的相关关系。
【实验环境】
CPU P4;RAM 512M。
Windows XP;SPSS 15.0等。
【实验方案设计】
选取我国各地区居民的消费水平,利用SPSS软件分别对全体居民x1、农民居民x2、城镇居民x3的消费水平进行数据的主成分分析和因子分析:
(1)分别从样本协方差矩阵S和样本相关矩阵R出发,求x1,x2,x3的样本主成分y1,y2,计算各样本主成分的贡献率。
(2)分别从样本协方差矩阵S和样本相关矩阵R出发,将第一样本主成分y1从小到大排序,并给以分析。
(3)取公共因子为1,对x1,x2,x3进行因子分析,并进行解释。对公共因子F1得分从小到大进行排序,并进行分析解释。
(4)取公共因子为2,采用方差最大正交旋转进行因子分析,对公共因子F1得分从小到大进行排序。再对公共因子F1,F2进行解释。
【实验过程】(实验步骤、记录、数据、分析)
(1)
a.从样本相关矩阵出发求解
打开SPSS软件,输入2006年各地区居民消费水平的相关数据后,激活Analyze菜单选Data Reduction的Factor...命令项,弹出Factor Analysis对话框,将全体居民、农村居民、城镇居民三个拉入变量框;点击Descriptives...钮,弹出Factor Analysis:Descriptives对话框,在Statistics中选Univariate descriptives项要求输出各变量的均数与标准差,在Correlation Matrix栏内选Coefficients项要求计算相关系数矩阵,并选KMO and Bartlett’s test of sphericity项,要求对相关系数矩阵进行统计学检验;点击Continue钮返回Factor Analysis对话框;点击Extraction...钮,弹出Factor Analysis:Extraction对话框,选用Principal components主成分分析法,在extract栏输入2,表示提取2个因子,其他都默认;点击Scores...钮,弹出弹出Factor Analysis:Scores对话框,选择 Regression(回归因子法)。
相关系数矩阵表,从表中可以看出这3个变量具有高相关性。
KMO检验和Bartlett球形检验结果表,KMO检验结果为0.765>o.5,很接近0.9,适合作因子分析;Bartlett球形检验的Sig.取值0.000,表示拒绝原假设,认为各变量之间不是独立的。
表1
由表1可得:
第一样本主成分Y1=0.338x1+0.336x2+0.336x3
第二样本主成分Y2=-0.240x1-3.486x2+3.730x3
由表2可得:
第一主成分y1的特征根为2.945
第二主成分y2的特征根为0.038
表2
b.从样本协方差矩阵出发求解
其他操作同上,只需做一项改动:点击Extraction...钮,弹出Factor Analysis:Extraction对话框,在analyze框中选择协方差矩阵,其他都不变。
表3
由表3可得:
第一样本主成分Y1=0.506x1+0.108x2+0.393x3
第二样本主成分Y2=3.754x1+0.929x2-4.691x3
由表4可得:
第一主成分y1的特征根为2.939
第二主成分y2的特征根为0.032
表4
(2)
a.从样本相关矩阵出发,将第一样本主成分为y1从小到大排序:
地区 |
FAC1_1 |
排序 |
西藏 |
-0.84639 |
1 |
贵州 |
-0.71736 |
2 |
甘肃 |
-0.67487 |
3 |
青海 |
-0.66237 |
4 |
新疆 |
-0.64986 |
5 |
云南 |
-0.56665 |
6 |
广西 |
-0.54882 |
7 |
安徽 |
-0.54166 |
8 |
陕西 |
-0.52145 |
9 |
黑龙江 |
-0.51335 |
10 |
江西 |
-0.49689 |
11 |
山西 |
-0.49396 |
12 |
四川 |
-0.47825 |
13 |
海南 |
-0.47723 |
14 |
宁夏 |
-0.41157 |
15 |
河南 |
-0.39304 |
16 |
重庆 |
-0.37213 |
17 |
河北 |
-0.34443 |
18 |
吉林 |
-0.3153 |
19 |
湖北 |
-0.27127 |
20 |
内蒙古 |
-0.25115 |
21 |
湖南 |
-0.18795 |
22 |
辽宁 |
-0.00647 |
23 |
山东 |
0.19315 |
24 |
福建 |
0.44966 |
25 |
江苏 |
0.58771 |
26 |
天津 |
0.85367 |
27 |
广东 |
0.99985 |
28 |
浙江 |
1.5056 |
29 |
北京 |
2.48776 |
30 |
上海 |
3.66503 |
31 |
表5
b.从样本协方差矩阵出发,将第一样本主成分为y1从小到大排序:
地区 |
FAC1_2 |
排序 |
西藏 |
-0.85901 |
1 |
贵州 |
-0.66066 |
2 |
青海 |
-0.65352 |
3 |
甘肃
|
-0.64165 |
4 |
新疆 |
-0.6195 |
5 |
广西 |
-0.57304 |
6 |
江西 |
-0.56766 |
7 |
安徽 |
-0.55561 |
8 |
云南 |
-0.5483 |
9 |
海南 |
-0.52601 |
10 |
黑龙江 |
-0.51952 |
11 |
陕西 |
-0.50697 |
12 |
四川 |
-0.49945 |
13 |
山西 |
-0.48874 |
14 |
河南 |
-0.41059 |
15 |
宁夏 |
-0.38309 |
16 |
河北 |
-0.35406 |
17 |
吉林 |
-0.33658 |
18 |
重庆 |
-0.31332 |
19 |
湖北 |
-0.26855 |
20 |
内蒙古 |
-0.23498 |
21 |
湖南 |
-0.20936 |
22 |
辽宁 |
-0.01683 |
23 |
山东 |
0.20747 |
24 |
福建 |
0.41296 |
25 |
江苏 |
0.49049 |
26 |
天津 |
0.88808 |
27 |
广东 |
1.15522 |
28 |
浙江 |
1.42992 |
29 |
北京 |
2.52678 |
30 |
上海 |
3.63606 |
31 |
表6
从上述两个表中可以看出,没有特别大的差别。
(3)
打开SPSS软件,输入2006年各地区居民消费水平的相关数据后,激活Analyze菜单选Data Reduction的Factor...命令项,弹出Factor Analysis对话框,将全体居民、农村居民、城镇居民三个拉入变量框;点击Descriptives...钮,弹出Factor Analysis:Descriptives对话框,在Statistics中选Univariate descriptives项要求输出各变量的均数与标准差,在Correlation Matrix栏内选Coefficients项要求计算相关系数矩阵;点击Continue钮返回Factor Analysis对话框;点击Extraction...钮,弹出Factor Analysis:Extraction对话框,选用Principal components主成分分析法,其他都默认;点击Scores...钮,弹出弹出Factor Analysis:Scores对话框,选择 Regression(回归因子法)。
表7
由表7可得:
第一主成分特征根为2.945,方差贡献率为98.175%,根据之前设置的提取因子的条件—特征值大于1,本例只选出1个因子F1。
表8
由表8可得:F1=0.338x1+0.336x2+0.336x3
下面对F1得分从小到大进行排序:
地区 |
FAC1_3 |
排序 |
西藏 |
-0.84639 |
1 |
贵州 |
-0.71736 |
2 |
甘肃 |
-0.67487 |
3 |
青海 |
-0.66237 |
4 |
新疆 |
-0.64986 |
5 |
云南 |
-0.56665 |
6 |
广西 |
-0.54882 |
7 |
安徽 |
-0.54166 |
8 |
陕西 |
-0.52145 |
9 |
黑龙江 |
-0.51335 |
10 |
江西 |
-0.49689 |
11 |
山西 |
-0.49396 |
12 |
四川 |
-0.47825 |
13 |
海南 |
-0.47723 |
14 |
宁夏 |
-0.41157 |
15 |
河南 |
-0.39304 |
16 |
重庆 |
-0.37213 |
17 |
河北 |
-0.34443 |
18 |
吉林 |
-0.3153 |
19 |
湖北 |
-0.27127 |
20 |
内蒙古 |
-0.25115 |
21 |
湖南 |
-0.18795 |
22 |
辽宁 |
-0.00647 |
23 |
山东 |
0.19315 |
24 |
福建 |
0.44966 |
25 |
江苏 |
0.58771 |
26 |
天津 |
0.85367 |
27 |
广东 |
0.99985 |
28 |
浙江 |
1.5056 |
29 |
北京 |
2.48776 |
30 |
上海 |
3.66503 |
31 |
表9
由表9可以看出:西藏的消费水平最低,上海的消费水平最高。由于第一主成份y1的贡献率高达98.175%,故若用y1的得分值对各地区进行排序,能从总体上反映地区之间的效益差别。从上述排序可以推知,y 1的值越大,则该地区的消费水平越高。
(4)
打开SPSS软件,输入2006年各地区居民消费水平的相关数据后,激活Analyze菜单选Data Reduction的Factor...命令项,弹出Factor Analysis对话框,将全体居民、农村居民、城镇居民三个拉入变量框;点击Descriptives...钮,弹出Factor Analysis:Descriptives对话框,在Statistics中选Univariate descriptives项要求输出各变量的均数与标准差,在Correlation Matrix栏内选Coefficients项要求计算相关系数矩阵,并选KMO and Bartlett’s test of sphericity项,要求对相关系数矩阵进行统计学检验;点击Continue钮返回Factor Analysis对话框;点击Extraction...钮,弹出Factor Analysis:Extraction对话框,选用Principal components主成分分析法,在extract栏输入2,表示提取2个因子,其他都默认;点击Scores...钮,弹出弹出Factor Analysis:Scores对话框,选择 Regression(回归因子法); 点击Rotation...钮,弹出弹出Factor Analysis: Rotation对话框,选择Varimax(方差最大正交旋转法)。
表10
由表10可得:F1=0.409x1+2.687x2-2.380x3
表11
由表11可得:F1=0.409x1+2.687x2 -2.380x3
由于因子得分的协方差矩阵为单位矩阵,说明提取的2个公因子是不相关的。
由表12可以看出:贵州的消费水平最低,上海的消费水平最高。由于第一主成份y1的贡献率高达98.175%,故若用y1的得分值对各地区进行排序,能从总体上反映地区之间的效益差别。从上述排序可以推知,y 1的值越大,则该地区的消费水平越高。
地区 |
FAC1_4 |
排序4 |
贵州 |
|
|
广东 |
|
|
陕西 |
|
|
甘肃 |
|
|
云南 |
|
|
重庆 |
|
|
西藏 |
|
|
新疆 |
|
|
宁夏 |
|
|
山东 |
|
|
河南 |
|
|
河北 |
|
|
青海 |
|
|
湖北 |
|
|
内蒙古 |
|
|
四川 |
|
|
山西 |
|
|
湖南 |
|
|
安徽 |
|
|
广西 |
|
|
福建 |
|
|
江西 |
|
|
黑龙江 |
|
|
海南 |
|
|
吉林 |
|
|
辽宁 |
|
|
天津 |
|
|
浙江 |
|
|
江苏 |
|
|
北京 |
|
|
上海 |
|
|
表12
【小结】
通过本次实验,了解SPSS软件的运行管理方式;熟悉各主要操作模块,窗口及其功能,相关的系统参数设置等。基本掌握了应用SPSS软件Analyze菜单中的Data Reduction模块对数据进行主成分分析和因子分析,但是在操作过程和文字分析上还是有些生疏,有待进一步的熟练。
【指导教师评语及成绩】