数据分析技术：数据关联性分析综述_qq的爱

http://blog.sina.com.cn/u/5346271813

首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

数据分析技术：数据关联性分析综述

(2016-10-25 16:16:49)

标签：

数据分析

数据分析师

数据科学家

数据挖掘

数据分析技术：数据关联性分析综述

基础准备

数据关联性分析的主要技术包括：相关性分析、回归分析、交叉表卡方分析等。相关与回归分析的理论基础部分前面已经详细介绍过，大家可以在首页下方的【生活统计】获取历史文章。本篇文章主要对关联性分析的方法进行分类归纳介绍，帮助大家形成知识框架。

关联性等级

1、两列数据之间根本不存在任何关联性；

2、两列低测度数据之间存在着模糊的关联性；

3、两列高测度数据之间存在着较强的，但不存在清晰函数关系的关联性；

4、两列数据之间存在着清晰的函数关系。

关联性分析技术

根据数据类型和分析等级，可以将关联性分析技术分成两类：相关性分析和回归分析。每一类技术又根据数据特点和研究目标的不同，可以有多种不同的分析方法。下面逐个介绍这些分析技术的主要分析方法。下图是这些方法的分类导图：

http://www.cda.cn/uploadfile/jianli/images/20161024/20161024151851_84934.png

相关分析方法

两个高测度变量

Pearson相关：适用于两列定距变量（连续变量）、正态分布，两列数据个数相同且具有对应关系；可以获取两列数据之间相关系数和相关性的检验概率。

Spearman相关：适用于两列定距变量或高测度定序变量、不明分布，两列数据个数相同且具有对应关系；可以获取两列数据秩分之间相关系数，以及相关性的检验概率。

Kendall相关：适用于两列定序变量、不明分布，两列数据个数相同且具有对应关系；可以获取两列数据的相关水平，以及相关性的检验概率

偏相关：多列定距变量或高测度定序变量、正态分布，去除控制变量的影响；它是屏蔽控制变量之后的相关性检验，获取两列数据的相关系数，以及相关性的检验概率。

高测度变量和低测度变量

方差分析：因变量为定距变量或高测度定序变量且符合正态分布，因素变量为定序变量或定类变量，以因素的不同水平进行分组，检查不同分组的差异性，从而反映因素变量与因变量之间的关联性。

K独立样本非参数检验：因变量为定距变量或高测度定序变量且不符合正态分布，因素变量为定序变量，以因素的不同水平进行分组，检查不同分组的差异性，从而反映因素变量与因变量之间的关联性。

两个低测度变量

定序变量的相关分析：两列低测度的定序变量，基于其不同取值的交叉点计算各分组的频数，基于交叉点的频数实施卡方检验，发现不同分组之间频数的差异性，进而反映量变量之间的关联性程度。

定类变量独立性分析：两列定类变量，基于不同取值的交叉点计算各分组的频数，基于交叉点的频数实施卡方检验，发现不同分组之间频数的差异性，进而反映定类变量的独立性。

回归分析--数据分析培训

回归分析的目标是研究因变量与引起其变化的自变量之间的函数关系。从理论上来说，每组变量（一个因变量和多个自变量）在按照算法实施计算后，都能产生一个或多个函数式（回归方程）。在系统生成回归方程后，必须考察回归方程的有效性。只有有效的回归方程，才有价值。利用有效的回归方程，人们可以基于自变量计算出因变量的值，从而可以实现预测、分析、探索等下一步活动。在回归分析中，评价回归方程的质量非常重要，借助高质量的回归方程式，可以保证研究活动的科学性和有效性。反之，如果回归方程的质量很差，则可能把研究活动引入歧途。

回归分析方法

一元线性回归分析：因变量为定距变量或高测度定序变量，自变量为定序变量或定距变量。只有一个自变量，获取自变量与因变量之间的回归方程式。

多元线性回归分析：因变量为定距变量或高测度定序变量，自变量为定序变量或定距变量，具有多个自变量，获取自变量与因变量之间的回归方程式

曲线回归分析：因变量为定距变量或高测度定序变量，自变量为定序变量或定距变量。只有单一自变量，获取自变量与因变量之间的曲线估计方程式。

二元回归分析：因变量为二分变量，自变量为定序变量或定距变量。可有多个自变量，获取自变量与因变量之间的回归方程式。

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report

前一篇：基于数据挖掘的汽车行业客户行为特征分析

后一篇：专访|8年数据分析路之经验谈

新浪BLOG意见反馈留言板　欢迎批评指正