加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

数据分析实验报告(主成分分析与因子分析 )

(2010-12-22 20:50:21)
标签:

数据分析

实验报告

主成分分析

因子分析

spss

杂谈

分类: 学习资料

 

好多输出 贴不上去,不好意思啊

浙江理工大学

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

实验项目名称    主成分分析与因子分析    

所属课程名称        数据分析            

       综合性实验           

实 验 日 期        2010127    

 

                          

                           

                           

                               

 

 

【实验目的及要求】

掌握主成分分析与因子分析的思想和具体步骤。掌握SPSS实现主成分分析与因子分析的具体操作。

 

【实验原理】

1.主成分分析的主要目的是希望用较少的变量去解释原来资料中的大部分变异,将我们手中许多相关性很高的变量转化成彼此相互独立或不相关的变量。通常是选出比原始变量个数少,能解释大部分资料中的变异的几个新变量,即所谓主成分,并用以解释资料的综合性指标。由此可见,主成分分析实际上是一种降维方法。

2.因子分析研究相关矩阵或协方差矩阵的内部依赖关系,它将多个变量综合为少数几个因子,以再现原始变量与因子之间的相关关系。

 

【实验环境】

CPU P4;RAM 512M。

Windows XP;SPSS 15.0等。

 

【实验方案设计】

选取我国各地区居民的消费水平,利用SPSS软件分别对全体居民x1、农民居民x2、城镇居民x3的消费水平进行数据的主成分分析和因子分析:

(1)分别从样本协方差矩阵S和样本相关矩阵R出发,求x1,x2,x3的样本主成分y1,y2,计算各样本主成分的贡献率。

(2)分别从样本协方差矩阵S和样本相关矩阵R出发,将第一样本主成分y1从小到大排序,并给以分析。

(3)取公共因子为1,对x1,x2,x3进行因子分析,并进行解释。对公共因子F1得分从小到大进行排序,并进行分析解释。

(4)取公共因子为2,采用方差最大正交旋转进行因子分析,对公共因子F1得分从小到大进行排序。再对公共因子F1,F2进行解释。

 

【实验过程】(实验步骤、记录、数据、分析)

(1)

a.从样本相关矩阵出发求解

打开SPSS软件,输入2006年各地区居民消费水平的相关数据后,激活Analyze菜单选Data Reduction的Factor...命令项,弹出Factor Analysis对话框,将全体居民、农村居民、城镇居民三个拉入变量框;点击Descriptives...钮,弹出Factor Analysis:Descriptives对话框,在Statistics中选Univariate descriptives项要求输出各变量的均数与标准差,在Correlation Matrix栏内选Coefficients项要求计算相关系数矩阵,并选KMO and Bartlett’s test of sphericity项,要求对相关系数矩阵进行统计学检验;点击Continue钮返回Factor Analysis对话框;点击Extraction...钮,弹出Factor Analysis:Extraction对话框,选用Principal components主成分分析法,在extract栏输入2,表示提取2个因子,其他都默认;点击Scores...钮,弹出弹出Factor Analysis:Scores对话框,选择 Regression(回归因子法)。

 

 

相关系数矩阵表,从表中可以看出这3个变量具有高相关性。

 

 

KMO检验和Bartlett球形检验结果表,KMO检验结果为0.765>o.5,很接近0.9,适合作因子分析;Bartlett球形检验的Sig.取值0.000,表示拒绝原假设,认为各变量之间不是独立的。

 

 

 

 

 

 

 

 

 

表1

由表1可得:

第一样本主成分Y1=0.338x1+0.336x2+0.336x3

第二样本主成分Y2=-0.240x1-3.486x2+3.730x3

由表2可得:

第一主成分y1的特征根为2.945    贡献率为98.175%

第二主成分y2的特征根为0.038     贡献率为1.276%

 

 

表2

b.从样本协方差矩阵出发求解

其他操作同上,只需做一项改动:点击Extraction...钮,弹出Factor Analysis:Extraction对话框,在analyze框中选择协方差矩阵,其他都不变。

 

 

表3

由表3可得:

第一样本主成分Y1=0.506x1+0.108x2+0.393x3

第二样本主成分Y2=3.754x1+0.929x2-4.691x3

由表4可得:

第一主成分y1的特征根为2.939    贡献率为97.964%

第二主成分y2的特征根为0.032    则计算得其贡献率为1.070%

 

 

表4

(2)


a.从样本相关矩阵出发,将第一样本主成分为y1从小到大排序:

地区

FAC1_1

排序

西藏   

-0.84639

1

贵州   

-0.71736

2

甘肃   

-0.67487

3

青海   

-0.66237

4

新疆   

-0.64986

5

云南   

-0.56665

6

广西   

-0.54882

7

安徽   

-0.54166

8

陕西   

-0.52145

9

黑龙江 

-0.51335

10

江西   

-0.49689

11

山西   

-0.49396

12

四川   

-0.47825

13

海南   

-0.47723

14

宁夏   

-0.41157

15

河南   

-0.39304

16

重庆   

-0.37213

17

河北   

-0.34443

18

吉林   

-0.3153

19

湖北   

-0.27127

20

内蒙古 

-0.25115

21

湖南   

-0.18795

22

辽宁   

-0.00647

23

山东    

0.19315

24

福建   

0.44966

25

江苏   

0.58771

26

天津   

0.85367

27

广东   

0.99985

28

浙江   

1.5056

29

北京   

2.48776

30

上海   

3.66503

31

表5

 

b.从样本协方差矩阵出发,将第一样本主成分为y1从小到大排序:

地区

FAC1_2

排序

西藏   

-0.85901

1

贵州   

-0.66066

2

青海   

-0.65352

3

甘肃    

-0.64165

4

新疆   

-0.6195

5

广西   

-0.57304

6

江西   

-0.56766

7

安徽   

-0.55561

8

云南   

-0.5483

9

海南   

-0.52601

10

黑龙江 

-0.51952

11

陕西   

-0.50697

12

四川   

-0.49945

13

山西   

-0.48874

14

河南   

-0.41059

15

宁夏   

-0.38309

16

河北   

-0.35406

17

吉林   

-0.33658

18

重庆   

-0.31332

19

湖北   

-0.26855

20

内蒙古 

-0.23498

21

湖南   

-0.20936

22

辽宁   

-0.01683

23

山东   

0.20747

24

福建   

0.41296

25

江苏   

0.49049

26

天津   

0.88808

27

广东   

1.15522

28

浙江   

1.42992

29

北京   

2.52678

30

上海   

3.63606

31


表6

从上述两个表中可以看出,没有特别大的差别。

(3)

打开SPSS软件,输入2006年各地区居民消费水平的相关数据后,激活Analyze菜单选Data Reduction的Factor...命令项,弹出Factor Analysis对话框,将全体居民、农村居民、城镇居民三个拉入变量框;点击Descriptives...钮,弹出Factor Analysis:Descriptives对话框,在Statistics中选Univariate descriptives项要求输出各变量的均数与标准差,在Correlation Matrix栏内选Coefficients项要求计算相关系数矩阵;点击Continue钮返回Factor Analysis对话框;点击Extraction...钮,弹出Factor Analysis:Extraction对话框,选用Principal components主成分分析法,其他都默认;点击Scores...钮,弹出弹出Factor Analysis:Scores对话框,选择 Regression(回归因子法)。

 

 

表7

由表7可得:

第一主成分特征根为2.945,方差贡献率为98.175%,根据之前设置的提取因子的条件—特征值大于1,本例只选出1个因子F1。

 

 

表8

由表8可得:F1=0.338x1+0.336x2+0.336x3

下面对F1得分从小到大进行排序:

地区

FAC1_3

排序

西藏   

-0.84639

1

贵州   

-0.71736

2

甘肃   

-0.67487

3

青海   

-0.66237

4

新疆   

-0.64986

5

云南   

-0.56665

6

广西   

-0.54882

7

安徽   

-0.54166

8

陕西   

-0.52145

9

黑龙江 

-0.51335

10

江西   

-0.49689

11

山西    

-0.49396

12

四川   

-0.47825

13

海南   

-0.47723

14

宁夏   

-0.41157

15

河南   

-0.39304

16

重庆   

-0.37213

17

河北   

-0.34443

18

吉林   

-0.3153

19

湖北   

-0.27127

20

内蒙古 

-0.25115

21

湖南   

-0.18795

22

辽宁   

-0.00647

23

山东   

0.19315

24

福建    

0.44966

25

江苏   

0.58771

26

天津   

0.85367

27

广东   

0.99985

28

浙江   

1.5056

29

北京   

2.48776

30

上海   

3.66503

31

 

表9

由表9可以看出:西藏的消费水平最低,上海的消费水平最高。由于第一主成份y1的贡献率高达98.175%,故若用y1的得分值对各地区进行排序,能从总体上反映地区之间的效益差别。从上述排序可以推知,y 1的值越大,则该地区的消费水平越高。

(4)

打开SPSS软件,输入2006年各地区居民消费水平的相关数据后,激活Analyze菜单选Data Reduction的Factor...命令项,弹出Factor Analysis对话框,将全体居民、农村居民、城镇居民三个拉入变量框;点击Descriptives...钮,弹出Factor Analysis:Descriptives对话框,在Statistics中选Univariate descriptives项要求输出各变量的均数与标准差,在Correlation Matrix栏内选Coefficients项要求计算相关系数矩阵,并选KMO and Bartlett’s test of sphericity项,要求对相关系数矩阵进行统计学检验;点击Continue钮返回Factor Analysis对话框;点击Extraction...钮,弹出Factor Analysis:Extraction对话框,选用Principal components主成分分析法,在extract栏输入2,表示提取2个因子,其他都默认;点击Scores...钮,弹出弹出Factor Analysis:Scores对话框,选择 Regression(回归因子法); 点击Rotation...钮,弹出弹出Factor Analysis: Rotation对话框,选择Varimax(方差最大正交旋转法)。

 

 

表10

由表10可得:F1=0.409x1+2.687x2-2.380x3  说明x2受该因子的影响较大

 

表11

由表11可得:F1=0.409x1+2.687x2 -2.380x3

            F2=0.066x1-2.246x2+2.892x3

由于因子得分的协方差矩阵为单位矩阵,说明提取的2个公因子是不相关的。

由表12可以看出:贵州的消费水平最低,上海的消费水平最高。由于第一主成份y1的贡献率高达98.175%,故若用y1的得分值对各地区进行排序,能从总体上反映地区之间的效益差别。从上述排序可以推知,y 1的值越大,则该地区的消费水平越高。

地区

FAC1_4

排序4

贵州

     -1.74324

       1

广东

     -1.58204

       2

陕西

     -1.21589

       3

甘肃

     -1.12324

       4

云南

      -.97717

       5

重庆

      -.85991

       6

西藏

      -.69837

       7

新疆

      -.69530

       8

宁夏

      -.53141

       9

山东

      -.41502

      10

河南

      -.37029

      11

河北

      -.32915

      12

青海

      -.23594

      13

湖北

      -.13373

      14

内蒙古

      -.13087

      15

四川

      -.11936

      16

山西

      -.11079

      17

湖南

      -.08522

      18

安徽

      -.06388

      19

广西

       .01315

      20

福建

       .41950

      21

江西

       .43831

      22

黑龙江

       .52919

      23

海南

       .64932

      24

吉林

       .68344

      25

辽宁

       .71354

      26

天津

       .83254

      27

浙江

       .86861

      28

江苏

      1.50874

      29

北京

      1.63926

      30

上海

      3.12521

      31

表12

 

【小结】

通过本次实验,了解SPSS软件的运行管理方式;熟悉各主要操作模块,窗口及其功能,相关的系统参数设置等。基本掌握了应用SPSS软件Analyze菜单中的Data Reduction模块对数据进行主成分分析和因子分析,但是在操作过程和文字分析上还是有些生疏,有待进一步的熟练。

 

【指导教师评语及成绩】

 

 

 

 

 

 

                                              指导教师:

                                                     批阅日期:

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有