谱聚类选择K特征向量做K-M聚类的理解

谱聚类(Spectral Clustering, SC)是一种基于图论的聚类方法——将带权无向图划分为两个或两个以上的最优子图,使子图内部尽量相似,而子图间距离尽量距离较远,以达到常见的聚类的目的。其中的最优是指最优目标函数不同,可以是割边最小分割——如图1的Smallest cut(如后文的Min cut), 也可以是分割规模差不多且割边最小的分割——如图1的Best cut(如后文的Normalized cut)。 http://images.cnitblog.com/blog/540980/201306/26000216-cede1ed42ce64416a3201c227300257b.jpg图1 谱聚类无向图划分——Smallest cut和Best cut
这样,谱聚类能够识别任意形状的样本空间且收敛于全局最优解,其基本思想是利用样本数据的相似矩阵(拉普拉斯矩阵)进行特征分解后得到的特征向量进行聚类。
1 理论基础
http://images.cnitblog.com/blog/540980/201306/26000217-60e1ad27f7b14d4583c469211f1ba37b.jpg
1 如果M足够大呢?
2 K的选取?
3 类的假设是凸球形的?
4 如果item是不同的实体呢?
5 Kmeans无可避免的局部最优收敛?
……
1.1 图的表示
邻接矩阵:E,eij表示vi和vi的边的权值,E为对称矩阵,对角线上元素为0,如图2-2。
Laplacian矩阵:L = D – E, 其中di
http://images.cnitblog.com/blog/540980/201306/26000217-d901a6eabae948009017338559f04adc.gif图2 图的表示
1.2 特征值与L矩阵
http://images.cnitblog.com/blog/540980/201306/26000217-075789bfd5d140139aea34606355f6e6.gif
http://images.cnitblog.com/blog/540980/201306/26000218-4b34a62c9da542f8ac162193563955e6.gif
http://images.cnitblog.com/blog/540980/201306/26000218-47125832eb044809ac4f0952c02ecbd2.gif
1、 L为对称半正定矩阵,保证所有特征值都大于等于0;
2、 L矩阵有唯一的0特征值,其对应的特征向量为1。
http://images.cnitblog.com/blog/540980/201306/26000218-409b61e60c704607bc0e200176ba96ba.gif
图3 图的L矩阵的特征值与特征向量
2 最优化方法
2.1 Min cut方法
http://images.cnitblog.com/blog/540980/201306/26000219-0817d6d8154247d699641cace8514f92.gif
2.2 Nomarlized cut方法
http://images.cnitblog.com/blog/540980/201306/26000219-bf1d2418950b4334ac145955640dcadb.gif
2.3 Ratio
Cut 方法
http://images.cnitblog.com/blog/540980/201306/26000219-efc7daf7f43946e5bd47a760a8248409.gif
2.4 Normalized相似变换
http://images.cnitblog.com/blog/540980/201306/26000220-9c540dab9b84474faf70ae6079c191a3.gif
3 谱聚类步骤
第一步:数据准备,生成图的邻接矩阵;
第二步:归一化普拉斯矩阵;
第三步:生成最小的k个特征值和对应的特征向量;
第四步:将特征向量kmeans聚类(少量的特征向量);
4 谱聚类的物理意义
http://images.cnitblog.com/blog/540980/201306/26000220-acb7f110669d40f28d1dea72a1bc5b3d.gif
对下面公式的推到的进一步解释:从上面的文章已经可以知道,求裁剪量最小,其实就是求解qTLq,而他的条件是qTq=1,然后联立拉格朗日条件极致定理,就可以推到出LD=入D。