相关性检验之Pearson系数及python实现_qq的爱

个人资料

微博

正文字体大小：大中小

相关性检验之Pearson系数及python实现

(2018-01-26 10:33:08)

标签：

一、Pearson相关系数

皮尔森相关系数是用来反应俩变量之间相似程度的统计量，在机器学习中可以用来计算特征与类别间的相似度，即可判断所提取到的特征和类别是正相关、负相关还是没有相关程度。

Pearson系数的取值范围为[-1,1]，当值为负时，为负相关，当值为正时，为正相关，绝对值越大，则正/负相关的程度越大。若数据无重复值，且两个变量完全单调相关时，spearman相关系数为 1或-1。当两个变量独立时相关系统为0，但反之不成立

Pearson相关系数的计算方法有三种形式，如下列公式所示

其中X,Y代表两个特征数组，，为X,Y特征的平均值。对于第一种形式的Pearson表示，可以看做是两个随机变量中得到的样本集向量之间夹角的cosine函数。

二、Python代码实现

在这里主要实现了第一种Pearson形式的代码，代码分为三个模块，第一个模块的功能是来获取两个向量的平均值；第二个模块的功能实现的是求两个向量间的pearson系数，返回pearson系数；最后一个模块是来求取所有特征和类的相似程度

[python]view plaincopy

[python]view plaincopy

[python]view plaincopy

三、样例演示

这里有一个1162*22的数据集，如下图所示，前21列表示特征，第22列表示类别。该数据集是一个二分类问题。

对于每个特征，调用上述函数，得出的每个特征的pearson系数如下图所示。根据得到的结果，对于特征选择就有一定的依据啦~

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report