相关系数、杰卡德相似系数和皮尔逊系数

分类: 机器学习 |
1.相关系数 ( Correlation coefficient )与相关距离(Correlation distance)
1 描述
相关系数是衡量随机变量X与Y相关程度的一种方法。
2 定义和公式
相关系数的定义为:http://m2.img.libdd.com/farm5/2012/0917/11/39E9329069AF5E6E6F2473DD1B36247281583F5EF698_317_62.PNG
相关系数的取值范围是[-1,1]。相关系数的绝对值越大,则表明X与Y相关度越高。当X与Y线性相关时,相关系数取值为1(正线性相关)或-1(负线性相关)。
相关距离的定义为:http://m1.img.libdd.com/farm5/2012/0917/11/C1FACF18BF8943FF53EFF8C41E28BF136EAB81BAC916_101_21.PNG
2.杰卡德相似系数(Jaccard similarity coefficient)和杰卡德距离(Jaccard distance)1 定义和公式
杰卡德相似系数:两个集合A和B的交集元素在A,B的并集中所占的比例,称为两个集合的杰卡德相似系数,用符号J(A,B)表示。
http://m1.img.libdd.com/farm4/2012/0917/11/2B9055F3DCB414212F7CEBD44B8DF01A588FBCBAC916_118_42.PNG
杰卡德相似系数是衡量两个集合的相似度一种指标。
与杰卡德相似系数相反的概念是杰卡德距离(Jaccard distance)。杰卡德距离可用如下公式表示:
http://m1.img.libdd.com/farm4/2012/0917/11/E37E147A0A76C9C0CCE50C28E09D61AA8EC9DB5EF698_290_42.PNG
杰卡德距离用两个集合中不同元素占所有元素的比例来衡量两个集合的区分度。
2 应用
可将杰卡德相似系数用在衡量样本的相似度上。
举例:样本A与样本B是两个n维向量,而且所有维度的取值都是0或1,例如:A(0111)和B(1011)。我们将样本看成是一个集合,1表示集合包含该元素,0表示集合不包含该元素。
-
M11 :样本A与B都是1的维度的个数
-
M01:样本A是0,样本B是1的维度的个数
-
M10:样本A是1,样本B是0 的维度的个数
-
M00:样本A与B都是0的维度的个数
依据上文给的杰卡德相似系数及杰卡德距离的相关定义,样本A与B的杰卡德相似系数J可以表示为:
http://m3.img.libdd.com/farm5/2013/0728/11/8DA963EC3A399D3E1468106A40AC50DC3D5FCF1A2AED8_195_45.PNG
这里M11+M01+M10可理解为A与B的并集的元素个数,而M11是A与B的交集的元素个数。而样本A与B的杰卡德距离表示为J’:
http://m2.img.libdd.com/farm4/2013/0728/11/CB50386969CDF6D61D7033A9A564440DDC24866C691BB_200_45.PNG
3. 皮尔逊系数(Pearson Correlation
Coefficient)
我们在第1条中,已经描述了什么是相关系数(Correlation coefficient)与相关距离(Correlation distance),此处需要用到相关概念。
1 描述
在统计学中,皮尔逊积矩相关系数(英语:Pearson product-moment correlation coefficient,又称作 PPMCC或PCCs, 用r表示)用于度量两个变量X和Y之间的相关(线性相关),其值介于-1与1之间。
通常情况下通过以下取值范围判断变量的相关强度:
相关系数 相关程度0.8-1.0 极强相关0.6-0.8 强相关0.4-0.6 中等程度相关0.2-0.4 弱相关0.0-0.2 极弱相关或无相关
在自然科学领域中,该系数广泛用于度量两个变量之间的相关程度。它是由卡尔·皮尔逊从弗朗西斯·高尔顿在19世纪80年代提出的一个相似却又稍有不同的想法演变而来的。这个相关系数也称作“皮尔森相关系数r”。
2 定义和公式
两个变量之间的皮尔逊相关系数定义为两个变量之间的协方差和标准差的商:
http://m2.img.libdd.com/farm4/2013/0728/11/F4483B89800AEC56B0E156BA11C9C118F55A57442F990_375_46.PNG
以上方程定义了总体相关系数, 一般表示成希腊字母ρ(rho)。基于样本对协方差和方差进行估计,可以得到样本标准差, 一般表示成r:
http://m1.img.libdd.com/farm5/2013/0728/11/A5E607F8405534EE26477010BA5612E3722BD124BD6D2_326_59.PNG
一种等价表达式的是表示成标准分的均值。基于(Xi, Yi)的样本点,样本皮尔逊系数是:
http://m2.img.libdd.com/farm5/2013/0728/11/DD72A2A17BB9145178ED7C84DDAF84D1A7178E788E62C_298_51.PNG
假设有两个变量X、Y,那么两变量间的皮尔逊相关系数可通过以下公式计算:
http://m1.img.libdd.com/farm4/2013/1006/14/B9993AEE5AFC3821115084BA1438AB11A78A6702DD8CF_500_60.jpg
其中E是数学期望,cov表示协方差,N表示变量取值的个数。
另外,还有其他三个等价的计算公式,此处只列出一个。
还有包括皮尔逊相关系数的适用范围、如何理解皮尔逊相关系数、皮尔逊相关的约束条件等,具体可以查阅July的博客从K近邻算法、距离度量谈到KD树、SIFT+BBF算法。