统计分布的相似性度量
(2014-03-27 17:47:20)
标签:
相似度距离概率统计机器学习样本 |
分类: 数学 |
相似性度量在图像、地名等匹配中应用十分广泛。计算两个概率分布的相似性距离有很多方法。假设存在两个样本i和j,其坐标为xi与xj,Dij表示样本i与样本j之间的距离。则距离的度量必须满足以下条件:
1.当i=j时,Dij=0;
2.Dij>0;(正定性?)
3.Dij=Dji;(对称性)
4.对于任意k,Dij≤Dik+Dkj;(三角不等式)
巴氏距离
巴氏距离(即Bhattacharryya
distance、巴塔恰瑞雅距离)是一种计算两个离散或连续的概率分布之间的相似性的方法,和巴氏系数(Bhattacharryya
coefficient)相关。巴氏系数是近似计算两个统计样本之间的重叠量,
马氏距离
马氏距离(即Mahalanobis
distance、马哈拉诺比斯距离)由印度统计学家P.C.Mahalanobis提出,
Dij=(xi-xj)'S-1(xi-xj)
S为样本的协方差矩阵。马氏距离的计算是建立在整体样本上的。当协方差矩阵为对角阵时,马氏距离也成为正规化的欧氏距离。
优点:马氏距离与数据的量纲无关(尺度无关,scale-invariant),标准化数据与中心化数据计算结果相同。马氏距离还可以排除变量之间的相关性干扰。
缺点:夸大了变化微小的变量的作用。
Hellinger距离
Heillinger距离是f散度的一种。具体计算方法见参考文献。
欧氏距离
欧氏距离(即Euclidean Distance)是多维空间中的常用距离度量方式。公式很简单,就不多介绍了。
欧式距离看做信号相似程度,距离越近就越相似,越容易相互干扰,误码率越高。欧式距离是马氏距离在协方差矩阵为单位阵的特殊情况。
缺点:将样本的不同属性、指标或变量之间的差别同等看待。
参考文献

加载中…