加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

数据分析实验报告(数据描述性分析)

(2010-12-22 20:39:42)
标签:

数据分析

实验报告

要求

格式

描述性分析

pearson

杂谈

分类: 学习资料

 

浙江理工大学

 

 

 

 

 

 

实验项目名称    数据描述性分析     

所属课程名称        数据分析       

      验证型实验      

实 验 日 期                       

 

                         

                         

                          

                        

 

 

 

 

 

 

【实验目的及要求】

了解SPSS软件的安装、启动、退出以及运行管理方式;熟悉各主要操作模块,窗口及其功能,相关的系统参数设置等。掌握SPSS软件的Analyze菜单中的Descriptive Statistics模块进行数据的描述性统计分析。

 

【实验原理】

数据分析是指用适当的统计方法对收集来的大量第一手资料和第二手资料进行分析,以求最大化地开发数据资料的功能,发挥数据的作用;是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。

要对数据进行分析,当然要分析数据中包含的主要信息,即要分析数据的主要特征,也就是说,要研究数据的数字特征。对于数据的数字特征,要分析数据的集中位置、分散程度。数据的分布是正态的还是偏态等。对于多元数据,还要分析多元数据的各个分量之间的相关性等。

 

【实验环境】

CPU P4;RAM 512M。

Windows XP;SPSS 15.0等。

 

【实验方案设计】

选取我国历年人口的出生率、死亡率和自然增长率,利用SPSS软件分别对出生率、死亡率和自然增长率进行数据的描述性统计分析:

(1)计算各个变量的均值、方差、标准差、变异系数、偏度、峰度。

(2)计算中位数,下、上四分位数,四分位极差,三均值,并做五数总括及字母显示值;分析各个变量的主要数字特征。

(3)做出直方图,茎叶图,箱线图;分析各个变量的正态性。

(4)计算各个变量之间的协方差矩阵,Pearson相关矩阵、Spearman相关矩阵,分析各变量间的相关性。

 

 

【实验过程】(实验步骤、记录、数据、分析)

(1)打开SPSS软件,输入我国历年人口的出生率、死亡率和自然增长率的数据后,点Analyze菜单按钮中的Descriptive Statistics 命令项中的 frequencies命令,跳出命令框后将左侧“出生率,死亡率,自然增长率”调到右边的variables栏中,再点击 statistics...钮,弹出frequencies  Statistics 对话框。选好“均值(Mean),方差(Variance),标准差(Std.deviation),变异系数(标准差/均值),偏度(Skewness),峰度(Kurtosis)”项目后点击 Continue 钮返回frequencies 对话框,再点击 OK 钮。

 

 

 

结果为

 

 

出生率

死亡率

自然增长率

N

Valid

28

28

28

Missing

0

0

0

Mean 均值

17.7025

6.5707

11.1311

Std. Deviation 标准差

3.59390

.16824

3.52186

Variance 方差

12.916

.028

12.404

Skewness 偏度

-.201

.262

-.226

Std. Error of Skewness

.441

.441

.441

Kurtosis 峰度

-1.232

-.648

-1.194

Std. Error of Kurtosis

.858

.858

.858

 

变异系数: 出生率 3.5939/17.7025=0.203   死亡率 0.16824/6.5707=0.0256

       自然增长率 3.52186/11.1311=0.3164

分析:从均值可以看出,我国历年人口的的出生率、死亡率和自然增长率平均为17.7025‰,6.5707‰,11.1311‰;从方差可以看出,死亡率的波动最小;从偏度,峰度看,三个变量的偏度,峰度的绝对值都不大,可以认为数据是取自正态总体的样本,即数据的总体分布近似服从正态分布。

 

(2)点Analyze菜单按钮中的Descriptive Statistics 命令项中的 frequencies命令,跳出命令框后将左侧“出生率,死亡率,自然增长率”调到右边的variables栏中,再点击 statistics...钮,弹出frequencies Statistics 对话框。选好“中位数(Media),上下四分位数(Quartile),四分位极差(上四分位数-下四分位数),三均值(Q1/4+M/2+Q3/4)”项目,点击 Continue 钮返回frequencies 对话框,再点击 OK 钮。

                           

结果为

 

 

 

 

出生率

死亡率

自然增长率

N

Valid

28

28

28

Missing

0

0

0

Median

18.1500

6.5500

11.5250

Percentiles

25

14.1825

6.4350

7.7300

50

18.1500

6.5500

11.5250

75

21.0075

6.6925

14.3575

四分位极差: 出生率 21.0075-14.1825=6.825 死亡率 6.6925-6.4350=0.2575

             自然增长率 14.3575-7.7300=6.6275

三均值:       出生率  17.8725     死亡率6.5569    自然增长率11.2844

                           

 

 

 

 

Statistics

 

 

 

 

 

 

 

 

 

 

出生率

死亡率

自然增长率

N

Valid

28

28

28

Missing

0

0

0

Minimum

12.09

6.25

5.28

Maximum

23.33

6.90

16.61

Percentiles

1

12.0900

6.2500

5.2800

5

12.1800

6.2905

5.5455

10

12.3890

6.3580

5.8880

25

14.1825

6.4350

7.7300

50

18.1500

6.5500

11.5250

75

21.0075

6.6925

14.3575

90

22.3760

6.8240

15.6850

95

22.9250

6.8820

16.2140

99

23.3300

6.9000

16.6100

五数总括及字母值显示:

出生率                       M=18.1500                          

Q1=14.1825   Q3=21.0075

Min=12.09    Max=23.33

 

M=18.1500                         

Q1=14.1825      Q3=21.0075

M0.10=12.3890   M0.90=22.3760

M0.05=12.1800   M0.95=22.9250

M0.01=12..0900   M0.99=23.3300

Min=12.09        Max=23.33

 

死亡率:                     M=6.5500                        

Q1=6.4350   Q3=6.6925

Min=6.25    Max=6.90

 

M=6.5500                          

Q1=6.4350       Q3=6.6925

M0.10=6.3580    M0.90=6.8240

M0.05=6.2905    M0.95=6.8820

M0.01=6.2500    M0.99=6.9000

Min=6.25        Max=6.90

 

自然增长率:                   M=11.5250                        

Q1=7.7300      Q3=14.3575

Min=5.28       Max=16.61

 

M=11.5250                        

Q1=7.7300      Q3=14.3575

M0.10=5.8880   M0.90=15.6850

M0.05=5.5455   M0.95=16.2140

M0.01=5.2800   M0.99=16.6100

Min=5.28       Max=16.61

(3)点Analyze菜单按钮中的Descriptive Statistics 命令项中的 frequencies命令,跳出命令框后将左侧“出生率,死亡率,自然增长率”调到右边的variables栏中,再点击 charts...钮,弹出frequencies:charts 对话框,点击Histograms,点击 Continue 钮返回frequencies 对话框,再点击 OK 钮。

 

直方图

 

 

 

点Analyze菜单按钮中的Descriptive Statistics 命令项中的 Explore命令,跳出命令框后将左侧“出生率,死亡率,自然增长率”调到右边的Dependent栏中,再点击 Plots...钮,弹出Explore:Plots 对话框,点击Box plots和Stem and leaf,点击 Continue 钮返回Explore对话框,再点击 OK 钮。

 

出生率茎叶图

 Stem-and-Leaf Plot

 Frequency    Stem &  Leaf

     6.00        1 .  222223

     3.00        1 .  445

     4.00        1 .  6677

     6.00        1 .  888899

     5.00        2 .  00111

     4.00        2 .  2223

 Stem width:     10.00

 Each leaf:       1 case(s)

 

出生率箱线图

 

死亡率茎叶图

Stem-and-Leaf Plot

 Frequency    Stem &  Leaf

     1.00       62 .  5

     2.00       63 .  46

     7.00       64 .  0123569

     6.00       65 .  011467

     5.00       66 .  04447

     3.00       67 .  028

     3.00       68 .  126

     1.00       69 .  0

 Stem width:       .10

 Each leaf:       1 case(s)

 

死亡率箱线图

 

 

自然增长率茎叶图

Stem-and-Leaf Plot

 

 Frequency    Stem &  Leaf

     3.00        0 .  555

     4.00        0 .  6667

     2.00        0 .  89

     7.00        1 .  0001111

     4.00        1 .  2233

     7.00        1 .  4445555

     1.00        1 .  6

 Stem width:     10.00

 Each leaf:       1 case(s)

 

自然增长率箱线图

 

 

分析:从箱线图可以看出我国历年(1978—2006年)人口的出生率、死亡率和自然增长率没有异常值和极端值。

 

(4)点Analyze菜单按钮中的Correlate命令项中的Bivariate…命令,跳出命令框后将左侧“出生率,死亡率,自然增长率”调到右边的Variables栏中,再点击 Pearson钮和Spearman钮,在Test of Significance中选择Two_tailed;点击Options,弹出Bivariate Correlations:Options 对话框,点击Cross products deviations and covariance,点击 Continue 钮返回Bivariate Correlations对话框,再点击 OK 钮。

 

输出结果:

Spearman相关系数

 

 

 

出生率

死亡率

自然增长率

Spearman 的 rho

出生率

相关系数

1.000

.481**

.996**

Sig.(双侧)

.

.010

.000

N

28

28

28

死亡率

相关系数

.481**

1.000

.441*

Sig.(双侧)

.010

.

.019

N

28

28

28

自然增长率

相关系数

.996**

.441*

1.000

Sig.(双侧)

.000

.019

.

N

28

28

28

**. 在置信度(双测)为 0.01 时,相关性是显著的。

*. 在置信度(双测)为 0.05 时,相关性是显著的。

 

Pearson相关性

 

 

出生率

死亡率

自然增长率

出生率

Pearson 相关性

1

.452*

.999**

显著性(双侧)

 

.016

.000

平方与叉积的和

348.736

7.386

341.436

协方差

12.916

.274

12.646

N

28

28

28

死亡率

Pearson 相关性

.452*

1

.414*

显著性(双侧)

.016

 

.028

平方与叉积的和

7.386

.764

6.625

协方差

.274

.028

.245

N

28

28

28

自然增长率

Pearson 相关性

.999**

.414*

1

显著性(双侧)

.000

.028

 

平方与叉积的和

341.436

6.625

334.895

协方差

12.646

.245

12.404

N

28

28

28

*. 在 0.05 水平(双侧)上显著相关。

**. 在 .01 水平(双侧)上显著相关。

 

分析:从输出的结果可以看出我国历年人口的的出生率、死亡率和自然增长率的协方差矩阵、Pearson相关矩阵、Spearman相关矩阵分别为

 

人口的出生率和自然增长率的Pearson相关系数高达0.999,并且在显著性水平为0.01下,检验结果表明二者相关性是显著的,所以二者存在几乎线性的相关关系。人口的出生率和自然增长率的Spearman相关系数也高达0.996,并且在显著性水平为0.01下,检验结果同样表明二者相关性是显著的。另外,出生率与死亡率,自然增长率与死亡率的Pearson相关关系不是很强,分别为0.452和0.414。从数据的分布也可以看出,自然增长率=出生率—死亡率,而历年的死亡率保持相当稳定,出生率和自然增长率存在几乎线性关系。

【小结】

通过本次实验,了解SPSS软件的运行管理方式;熟悉各主要操作模块,窗口及其功能,相关的系统参数设置等。基本掌握了应用SPSS软件Analyze菜单中的Descriptive Statistics模块对数据进行描述性统计分析,但是在操作过程和文字分析上还是有些生疏,有待进一步的熟练。

 

 

【指导教师评语及成绩】

 

 

 

 

 

 

      指导教师:

                                              批阅日期:

 

 

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有