数据分析技术:数据关联性分析综述
标签:
数据分析数据分析师数据科学家数据挖掘 |
基础准备
数据关联性分析的主要技术包括:相关性分析、回归分析、交叉表卡方分析等。相关与回归分析的理论基础部分前面已经详细介绍过,大家可以在首页下方的【生活统计】获取历史文章。本篇文章主要对关联性分析的方法进行分类归纳介绍,帮助大家形成知识框架。
关联性等级
1、两列数据之间根本不存在任何关联性;
2、两列低测度数据之间存在着模糊的关联性;
3、两列高测度数据之间存在着较强的,但不存在清晰函数关系的关联性;
4、两列数据之间存在着清晰的函数关系。
关联性分析技术
根据数据类型和分析等级,可以将关联性分析技术分成两类:相关性分析和回归分析。每一类技术又根据数据特点和研究目标的不同,可以有多种不同的分析方法。下面逐个介绍这些分析技术的主要分析方法。下图是这些方法的分类导图:
http://www.cda.cn/uploadfile/jianli/images/20161024/20161024151851_84934.png
相关性分析
待分析相关性的两个数据序列,在进行相关性分析之前,通常假设两列数据之间没有相关性。在启动相关性分析之后,能够获得两个量化指标:相关系数和显著性检验概率。其中,检验概率值反映了没有相关性的可能性,若概率小于0.05,则表示两个数据序列之间存在相关性;相关系数则反映了相关程度和方向,相关系数的绝对值越大,表示两列数据的关联性越强,相关系数的符号说明数据之间是正相关还是负相关。虽然利用相关分析能够发现变量之间的关联性程度,但不能证明变量之间的因果关系和函数关系。
相关分析方法
两个高测度变量
Pearson相关:适用于两列定距变量(连续变量)、正态分布,两列数据个数相同且具有对应关系;可以获取两列数据之间相关系数和相关性的检验概率。
Spearman相关:适用于两列定距变量或高测度定序变量、不明分布,两列数据个数相同且具有对应关系;可以获取两列数据秩分之间相关系数,以及相关性的检验概率。
Kendall相关:适用于两列定序变量、不明分布,两列数据个数相同且具有对应关系;可以获取两列数据的相关水平,以及相关性的检验概率
偏相关:多列定距变量或高测度定序变量、正态分布,去除控制变量的影响;它是屏蔽控制变量之后的相关性检验,获取两列数据的相关系数,以及相关性的检验概率。
高测度变量和低测度变量
方差分析:因变量为定距变量或高测度定序变量且符合正态分布,因素变量为定序变量或定类变量,以因素的不同水平进行分组,检查不同分组的差异性,从而反映因素变量与因变量之间的关联性。
K独立样本非参数检验:因变量为定距变量或高测度定序变量且不符合正态分布,因素变量为定序变量,以因素的不同水平进行分组,检查不同分组的差异性,从而反映因素变量与因变量之间的关联性。
两个低测度变量
定序变量的相关分析:两列低测度的定序变量,基于其不同取值的交叉点计算各分组的频数,基于交叉点的频数实施卡方检验,发现不同分组之间频数的差异性,进而反映量变量之间的关联性程度。
定类变量独立性分析:两列定类变量,基于不同取值的交叉点计算各分组的频数,基于交叉点的频数实施卡方检验,发现不同分组之间频数的差异性,进而反映定类变量的独立性。
回归分析--数据分析培训
回归分析的目标是研究因变量与引起其变化的自变量之间的函数关系。从理论上来说,每组变量(一个因变量和多个自变量)在按照算法实施计算后,都能产生一个或多个函数式(回归方程)。在系统生成回归方程后,必须考察回归方程的有效性。只有有效的回归方程,才有价值。利用有效的回归方程,人们可以基于自变量计算出因变量的值,从而可以实现预测、分析、探索等下一步活动。在回归分析中,评价回归方程的质量非常重要,借助高质量的回归方程式,可以保证研究活动的科学性和有效性。反之,如果回归方程的质量很差,则可能把研究活动引入歧途。
回归分析方法
一元线性回归分析:因变量为定距变量或高测度定序变量,自变量为定序变量或定距变量。只有一个自变量,获取自变量与因变量之间的回归方程式。
多元线性回归分析:因变量为定距变量或高测度定序变量,自变量为定序变量或定距变量,具有多个自变量,获取自变量与因变量之间的回归方程式
曲线回归分析:因变量为定距变量或高测度定序变量,自变量为定序变量或定距变量。只有单一自变量,获取自变量与因变量之间的曲线估计方程式。
二元回归分析:因变量为二分变量,自变量为定序变量或定距变量。可有多个自变量,获取自变量与因变量之间的回归方程式。

加载中…