SPSS分析习题与答案(知识点索引)
(2019-09-12 22:01:15)
标签:
it教育旅游美食财经 |
第三讲 SPSS分析习题与答案
1.什么是SPSS的全称?
答:SPSS(Statistical Product and Service Solutions),“统计产品与服务解决方案”软件。最初软件全称为“社会科学统计软件包”(SolutionsStatistical Package for the Social Sciences),但是随着SPSS产品服务领域的扩大和服务深度的增加,SPSS公司已于2000年正式将英文全称更改为“统计产品与服务解决方案”,这标志着SPSS的战略方向正在做出重大调整。SPSS为IBM公司推出的一系列用于统计学分析运算、数据挖掘、预测分析和决策支持任务的软件产品及相关服务的总称,有Windows和Mac OS X等版本。
2.什么是CRISP-DM?
答:为了推广数据挖掘技术,以解决越来越多的商业问题,SPSS和一个从事数据挖掘研究的全球性企业联盟制定了关于数据挖掘技术的行业标准--CRISP-DM(Cross-Industry Standard Process for Data Mining)。与以往仅仅局限在技术层面上的数据挖掘方法论不同,CRISP-DM把数据挖掘看作一个商业过程,并将其具体的商业目标映射为数据挖掘目标。一次调查显示,50%以上的数据挖掘工具采用的都是CRISP-DM的数据挖掘流程,它已经成为事实上的行业标准。
3.简述SPSS的分析流程。
答:将一个完整的数据分析项目分为以下五个流程:
.1 数据获取
外部数据主要有三种获取方式,一种是获取国内一些网站上公开的数据资料,例如国家统计局;一种是通过爬虫等工具获取网站上的数据。还有一种是通过企业内部的数据库,SPSS有丰富的数据库接口,可以便捷地从数据库中读取数据。
.2 数据存储
对于数据量不大的项目,可以使用excel来处理数据,但对于数据量过万的项目,使用数据库来存储与管理会更高效便捷。SPSS也有自己的用作数据储存的数据格式,sav文件。用户可以将经过SPSS处理的数据保存为sav格式,同时也可以非常方便地将sav文件转换为其他数据格式文件。
.3 数据预处理
数据预处理也称数据清洗。大多数情况下,我们拿到手的数据是格式不一致,存在异常值、缺失值等问题的,而不同项目数据预处理步骤的方法也不一样。CDA数据分析师认为数据分析有80%的工作都在处理数据,可见数据预处理在数据分析的重要性。
.4 建模与分析
这一阶段首先要清楚数据的结构,结合项目需求来选取模型。
.5 可视化分析
数据分析最后一步是撰写数据分析报告,一般包括数据可视化分析。
4. 对数据进行方差分析时,Univariate菜单和Multivariate菜单最大的区别是什么?
答:当因变量只有一个时,使用Univariate菜单,当因变量不止一个时,使用Multivariate菜单。
5. 简述SPSS打开其它格式数据的几种方法?
答:(1)、直接打开:选择菜单File==>Open==>Data或直接单击快捷工具栏上的打开按钮;
(2)、使用数据库查询打开:选择菜单File==>Open Database==>New Query,根据向导打开数据;
(3)、使用文本向导读入文本文件:选择菜单File==>Read Text Data
6. 两因素以上的方差分析在SPSS中用什么来完成?
答:这些方差分析一律可归入一般线性模型,所以在SPSS中都被归入了General Lineal Model子菜单。
7. 简述在多元线性回归分析中,SPSS筛选自变量进入回归方程的四种方法。
答:这四种方法是:强迫法、逐步法、向前法、向后法。
(1)逐步回归法(stepwise),是运用甚为广泛的复回归分析方法之一,也是多元回归分析报告中出现几率最多的一种预测变量的方法。它结合“向前法”(forward selection)和“向后法”(backward elimination)二种方式的优点。
(2)向前法是自变量一个一个进入回归模式中,而向后法是先将所有的自变量纳入回归模式中,之后再逐一将对模式贡献最小的预测变量移除,直到所有的自变量均达到标准为止。
(3)强迫回归法(Enter)也是一种常见的方法,强迫所有变量有顺序进入回归方程。
8. 试说明多元线性回归分析中的“共线性”问题及判断标准。
答:多元回归分析中要留意“共线性”(collinarity)问题,它是指由于自变量间的相关太高,造成回归分析的情境困扰,使回归模式的参数不能完全被估计出来。自变量间的共线性问题可由容忍度(tolerance)、变异数膨胀因素(VIF)和条件指数(condition index;CI)判断。一般而言,容忍度越接近0、VIF越大或条件指数越大(大于15),则越有可能存在共线性问题。
9.简述SPSS Modeler。
答:SPSS Modeler 是领先的可视化数据科学和机器学习解决方案。它可以加快数据研究员执行操作任务的速度,从而帮助企业加速实现价值并获得预期的成果。全球领先的组织依靠 IBM 的产品和服务进行数据准备和发现、预测分析、模型管理和部署以及机器学习,通过数据资产获得实际收益。SPSS Modeler 支持企业利用数据资产和现代应用程序,以及准备就绪且立即可用的完整算法和模型。它适用于混合环境,可以满足监管和安全需求 — 通过 IBM Watson® Studio 提供。SPSS Modeler 可帮助您:
·
·
·
·
10.简述SPSS和SPSS modeler的区别。
答:SPSS和SPSS modeler的区别如下:
1、SPSS modeler是数据挖掘,SPSS是统计分析:spss是一款用于处理常见统计问题的软件,功能是比较齐全的。SPSS modeler是专门用于做数据挖掘的软件,包含各种数据挖掘算法,可以和其他数据库软件比较好地兼容、连接。
2、直接区别:两者在处理数据的量上有区别,SPSS的处理数据量有限制,而SPSS modeler处理数据的量可以是海量,也就是现在所说的大数据。
3、本质区别:主要是功能上的,SPSS modeler包括有统计分析的部分,也有机器学习和人工智能的部分,而SPSS主要就是统计分析,是以统计学的理论为主的。SPSS modeler更侧重挖掘潜在的知识,为业务做指导,SPSS侧重在统计分析功能的应用。