除了欧式距离,还有这些距离

标签:
大学 |
本文目录
1. 欧氏距离
2. 曼哈顿距离
3. 切比雪夫距离
4. 闵可夫斯基距离
5. 标准化欧氏距离
6. 马氏距离
7. 汉明距离
8. 杰卡德距离 & 杰卡德相似系数
9. 相关系数 & 相关距离
10. 信息熵
1.
(1)二维平面上两点a(x1,y1)与b(x2,y2)间的欧氏距离:
https://pic002.cnblogs.com/images/2011/63234/2011030823203337.png
(2)三维空间两点a(x1,y1,z1)与b(x2,y2,z2)间的欧氏距离:
https://pic002.cnblogs.com/images/2011/63234/2011030823204453.png
(3)两个n维向量a(x11,x12,…,x1n)与 b(x21,x22,…,x2n)间的欧氏距离:
也可以用表示成向量运算的形式:
https://pic002.cnblogs.com/images/2011/63234/2011030823211360.png
2.
(1)二维平面两点a(x1,y1)与b(x2,y2)间的曼哈顿距离
https://pic002.cnblogs.com/images/2011/63234/2011030823213652.png
(2)两个n维向量a(x11,x12,…,x1n)与 b(x21,x22,…,x2n)间的曼哈顿距离
https://pic002.cnblogs.com/images/2011/63234/2011030823231354.png
3.
(1)二维平面两点a(x1,y1)与b(x2,y2)间的切比雪夫距离
https://pic002.cnblogs.com/images/2011/63234/2011030823234117.png
(2)两个n维向量a(x11,x12,…,x1n)与 b(x21,x22,…,x2n)间的切比雪夫距离
https://pic002.cnblogs.com/images/2011/63234/2011030823235870.png
这个公式的另一种等价形式是
https://pic002.cnblogs.com/images/2011/63234/2011030823242560.png
4.
https://pic002.cnblogs.com/images/2011/63234/2011030823244080.png
其中p是一个变参数。
当p=1时,就是曼哈顿距离
当p=2时,就是欧氏距离
当p→∞时,就是切比雪夫距离
5.
而且标准化变量的数学期望为0,方差为1。因此样本集的标准化过程(standardization)用公式描述就是:
https://pic002.cnblogs.com/images/2011/63234/2011030823264688.png
标准化后的值 =
经过简单的推导就可以得到两个n维向量a(x11,x12,…,x1n)与 b(x21,x22,…,x2n)间的标准化欧氏距离的公式:
https://pic002.cnblogs.com/images/2011/63234/2011030823272054.png
如果将方差的倒数看成是一个权重,这个公式可以看成是一种加权欧氏距离(Weighted Euclidean distance)。
6.
https://pic002.cnblogs.com/images/2011/63234/2011030823274286.png
https://pic002.cnblogs.com/images/2011/63234/2011030823280193.png
https://pic002.cnblogs.com/images/2011/63234/2011030823281650.png
也就是欧氏距离了。
若协方差矩阵是对角矩阵,公式变成了标准化欧氏距离。
7.
应用:信息编码(为了增强容错性,应使得编码间的最小汉明距离尽可能大)。
8.
两个集合A和B的交集元素在A,B的并集中所占的比例,称为两个集合的杰卡德相似系数,用符号J(A,B)表示。
https://pic002.cnblogs.com/images/2011/63234/2011030823303566.png
杰卡德相似系数是衡量两个集合的相似度一种指标。
(2) 杰卡德距离
与杰卡德相似系数相反的概念是杰卡德距离(Jaccard distance)。杰卡德距离可用如下公式表示:
https://pic002.cnblogs.com/images/2011/63234/2011030823310119.png
杰卡德距离用两个集合中不同元素占所有元素的比例来衡量两个集合的区分度。
9.
https://pic002.cnblogs.com/images/2011/63234/2011030823322444.png
相关系数是衡量随机变量X与Y相关程度的一种方法,相关系数的取值范围是[-1,1]。相关系数的绝对值越大,则表明X与Y相关度越高。当X与Y线性相关时,相关系数取值为1(正线性相关)或-1(负线性相关)。
(2)相关距离的定义
https://pic002.cnblogs.com/images/2011/63234/2011030823323390.png
10.
https://pic002.cnblogs.com/images/2011/63234/2011030823325084.png
参数的含义:
n:样本集X的分类数
pi:X中第i类元素出现的概率
信息熵越大表明样本集S分类越分散,信息熵越小则表明样本集X分类越集中。。当S中n个分类出现的概率一样大时(都是1/n),信息熵取最大值log2(n)。当X只有一个分类时,信息熵取最小值0