数据分析实验报告(数据描述性分析)
(2010-12-22 20:39:42)
标签:
数据分析实验报告要求格式描述性分析pearson杂谈 |
分类: 学习资料 |
浙江理工大学
实 验 报 告
实验项目名称
所属课程名称
实 验 类 型
实 验 日 期
班
学
姓
成
【实验目的及要求】
了解SPSS软件的安装、启动、退出以及运行管理方式;熟悉各主要操作模块,窗口及其功能,相关的系统参数设置等。掌握SPSS软件的Analyze菜单中的Descriptive Statistics模块进行数据的描述性统计分析。
【实验原理】
数据分析是指用适当的统计方法对收集来的大量第一手资料和第二手资料进行分析,以求最大化地开发数据资料的功能,发挥数据的作用;是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。
要对数据进行分析,当然要分析数据中包含的主要信息,即要分析数据的主要特征,也就是说,要研究数据的数字特征。对于数据的数字特征,要分析数据的集中位置、分散程度。数据的分布是正态的还是偏态等。对于多元数据,还要分析多元数据的各个分量之间的相关性等。
【实验环境】
CPU P4;RAM 512M。
Windows XP;SPSS 15.0等。
【实验方案设计】
选取我国历年人口的出生率、死亡率和自然增长率,利用SPSS软件分别对出生率、死亡率和自然增长率进行数据的描述性统计分析:
(1)计算各个变量的均值、方差、标准差、变异系数、偏度、峰度。
(2)计算中位数,下、上四分位数,四分位极差,三均值,并做五数总括及字母显示值;分析各个变量的主要数字特征。
(3)做出直方图,茎叶图,箱线图;分析各个变量的正态性。
(4)计算各个变量之间的协方差矩阵,Pearson相关矩阵、Spearman相关矩阵,分析各变量间的相关性。
【实验过程】(实验步骤、记录、数据、分析)
(1)打开SPSS软件,输入我国历年人口的出生率、死亡率和自然增长率的数据后,点Analyze菜单按钮中的Descriptive
Statistics 命令项中的
frequencies命令,跳出命令框后将左侧“出生率,死亡率,自然增长率”调到右边的variables栏中,再点击
statistics...钮,弹出frequencies
结果为
|
|
出生率 |
死亡率 |
自然增长率 |
|
|
N |
Valid |
28 |
28 |
28 |
| Missing |
0 |
0 |
0 |
|
|
Mean 均值 |
17.7025 |
6.5707 |
11.1311 |
|
|
Std. Deviation 标准差 |
3.59390 |
.16824 |
3.52186 |
|
|
Variance 方差 |
12.916 |
.028 |
12.404 |
|
|
Skewness 偏度 |
-.201 |
.262 |
-.226 |
|
|
Std. Error of Skewness |
.441 |
.441 |
.441 |
|
|
Kurtosis 峰度 |
-1.232 |
-.648 |
-1.194 |
|
|
Std. Error of Kurtosis |
.858 |
.858 |
.858 |
|
变异系数: 出生率
3.5939/17.7025=0.203
分析:从均值可以看出,我国历年人口的的出生率、死亡率和自然增长率平均为17.7025‰,6.5707‰,11.1311‰;从方差可以看出,死亡率的波动最小;从偏度,峰度看,三个变量的偏度,峰度的绝对值都不大,可以认为数据是取自正态总体的样本,即数据的总体分布近似服从正态分布。
(2)点Analyze菜单按钮中的Descriptive Statistics 命令项中的 frequencies命令,跳出命令框后将左侧“出生率,死亡率,自然增长率”调到右边的variables栏中,再点击 statistics...钮,弹出frequencies Statistics 对话框。选好“中位数(Media),上下四分位数(Quartile),四分位极差(上四分位数-下四分位数),三均值(Q1/4+M/2+Q3/4)”项目,点击 Continue 钮返回frequencies 对话框,再点击 OK 钮。
结果为
|
|
出生率 |
死亡率 |
自然增长率 |
|
|
N |
Valid |
28 |
28 |
28 |
| Missing |
0 |
0 |
0 |
|
|
Median |
18.1500 |
6.5500 |
11.5250 |
|
|
Percentiles |
25 |
14.1825 |
6.4350 |
7.7300 |
| 50 |
18.1500 |
6.5500 |
11.5250 |
|
| 75 |
21.0075 |
6.6925 |
14.3575 |
|
四分位极差: 出生率 21.0075-14.1825=6.825 死亡率 6.6925-6.4350=0.2575
三均值:
Statistics
|
|
出生率 |
死亡率 |
自然增长率 |
|
|
N |
Valid |
28 |
28 |
28 |
| Missing |
0 |
0 |
0 |
|
|
Minimum |
12.09 |
6.25 |
5.28 |
|
|
Maximum |
23.33 |
6.90 |
16.61 |
|
|
Percentiles |
1 |
12.0900 |
6.2500 |
5.2800 |
| 5 |
12.1800 |
6.2905 |
5.5455 |
|
| 10 |
12.3890 |
6.3580 |
5.8880 |
|
| 25 |
14.1825 |
6.4350 |
7.7300 |
|
| 50 |
18.1500 |
6.5500 |
11.5250 |
|
| 75 |
21.0075 |
6.6925 |
14.3575 |
|
| 90 |
22.3760 |
6.8240 |
15.6850 |
|
| 95 |
22.9250 |
6.8820 |
16.2140 |
|
| 99 |
23.3300 |
6.9000 |
16.6100 |
|
五数总括及字母值显示:
出生率
Q1=14.1825
Min=12.09
M=18.1500
Q1=14.1825
M0.10=12.3890
M0.05=12.1800
M0.01=12..0900
Min=12.09
死亡率:
Q1=6.4350
Min=6.25
M=6.5500
Q1=6.4350
M0.10=6.3580
M0.05=6.2905
M0.01=6.2500
Min=6.25
自然增长率:
Q1=7.7300
Min=5.28
M=11.5250
Q1=7.7300
M0.10=5.8880
M0.05=5.5455
M0.01=5.2800
Min=5.28
(3)点Analyze菜单按钮中的Descriptive Statistics 命令项中的 frequencies命令,跳出命令框后将左侧“出生率,死亡率,自然增长率”调到右边的variables栏中,再点击 charts...钮,弹出frequencies:charts 对话框,点击Histograms,点击 Continue 钮返回frequencies 对话框,再点击 OK 钮。
直方图
点Analyze菜单按钮中的Descriptive Statistics 命令项中的 Explore命令,跳出命令框后将左侧“出生率,死亡率,自然增长率”调到右边的Dependent栏中,再点击 Plots...钮,弹出Explore:Plots 对话框,点击Box plots和Stem and leaf,点击 Continue 钮返回Explore对话框,再点击 OK 钮。
出生率茎叶图
出生率箱线图
死亡率茎叶图
Stem-and-Leaf Plot
死亡率箱线图
自然增长率茎叶图
Stem-and-Leaf Plot
自然增长率箱线图
分析:从箱线图可以看出我国历年(1978—2006年)人口的出生率、死亡率和自然增长率没有异常值和极端值。
(4)点Analyze菜单按钮中的Correlate命令项中的Bivariate…命令,跳出命令框后将左侧“出生率,死亡率,自然增长率”调到右边的Variables栏中,再点击 Pearson钮和Spearman钮,在Test of Significance中选择Two_tailed;点击Options,弹出Bivariate Correlations:Options 对话框,点击Cross products deviations and covariance,点击 Continue 钮返回Bivariate Correlations对话框,再点击 OK 钮。
输出结果:
|
Spearman相关系数 |
|||||
|
|
|
|
出生率 |
死亡率 |
自然增长率 |
|
Spearman 的 rho |
出生率 |
相关系数 |
1.000 |
.481** |
.996** |
|
Sig.(双侧) |
. |
.010 |
.000 |
||
|
N |
28 |
28 |
28 |
||
|
死亡率 |
相关系数 |
.481** |
1.000 |
.441* |
|
|
Sig.(双侧) |
.010 |
. |
.019 |
||
|
N |
28 |
28 |
28 |
||
|
自然增长率 |
相关系数 |
.996** |
.441* |
1.000 |
|
|
Sig.(双侧) |
.000 |
.019 |
. |
||
|
N |
28 |
28 |
28 |
||
|
**. 在置信度(双测)为 0.01 时,相关性是显著的。 |
|||||
|
*. 在置信度(双测)为 0.05 时,相关性是显著的。 |
|||||
|
Pearson相关性 |
||||
|
|
|
出生率 |
死亡率 |
自然增长率 |
|
出生率 |
Pearson 相关性 |
1 |
.452* |
.999** |
|
显著性(双侧) |
|
.016 |
.000 |
|
|
平方与叉积的和 |
348.736 |
7.386 |
341.436 |
|
|
协方差 |
12.916 |
.274 |
12.646 |
|
|
N |
28 |
28 |
28 |
|
|
死亡率 |
Pearson 相关性 |
.452* |
1 |
.414* |
|
显著性(双侧) |
.016 |
|
.028 |
|
|
平方与叉积的和 |
7.386 |
.764 |
6.625 |
|
|
协方差 |
.274 |
.028 |
.245 |
|
|
N |
28 |
28 |
28 |
|
|
自然增长率 |
Pearson 相关性 |
.999** |
.414* |
1 |
|
显著性(双侧) |
.000 |
.028 |
|
|
|
平方与叉积的和 |
341.436 |
6.625 |
334.895 |
|
|
协方差 |
12.646 |
.245 |
12.404 |
|
|
N |
28 |
28 |
28 |
|
|
*. 在 0.05 水平(双侧)上显著相关。 |
||||
|
**. 在 .01 水平(双侧)上显著相关。 |
||||
分析:从输出的结果可以看出我国历年人口的的出生率、死亡率和自然增长率的协方差矩阵、Pearson相关矩阵、Spearman相关矩阵分别为
,
人口的出生率和自然增长率的Pearson相关系数高达0.999,并且在显著性水平为0.01下,检验结果表明二者相关性是显著的,所以二者存在几乎线性的相关关系。人口的出生率和自然增长率的Spearman相关系数也高达0.996,并且在显著性水平为0.01下,检验结果同样表明二者相关性是显著的。另外,出生率与死亡率,自然增长率与死亡率的Pearson相关关系不是很强,分别为0.452和0.414。从数据的分布也可以看出,自然增长率=出生率—死亡率,而历年的死亡率保持相当稳定,出生率和自然增长率存在几乎线性关系。
【小结】
通过本次实验,了解SPSS软件的运行管理方式;熟悉各主要操作模块,窗口及其功能,相关的系统参数设置等。基本掌握了应用SPSS软件Analyze菜单中的Descriptive Statistics模块对数据进行描述性统计分析,但是在操作过程和文字分析上还是有些生疏,有待进一步的熟练。
【指导教师评语及成绩】

加载中…