数据挖掘聚类算法之K-MEDOIDS_郑来轶

http://blog.sina.com.cn/u/1606645093

首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

数据挖掘聚类算法之K-MEDOIDS

(2010-06-07 23:23:23)

标签：

郑来轶

聚类算法

数据挖掘

k-means

k-medoids

中心

分类： 04.数据挖掘

记得前一篇博文写过关于K-MEANS的内容，K-MEANS顾名思义K-均值，通过计算一类记录的均值来代表该类，但是受异常值或极端值的影响比较大，这里介绍另外一种算法K-medodis。

看起来和K-means比较相似，但是K-medoids和K-means是有区别的，不一样的地方在于中心点的选取，在K-means中，我们将中心点取为当前cluster中所有数据点的平均值，在 K-medoids算法中，我们将从当前cluster 中选取这样一个点——它到其他所有（当前cluster中的）点的距离之和最小——作为中心点。

http://s8/middle/5fc37565g88c34167da57&690

http://s16/middle/5fc37565g88c3419593ef&690

K-MEANS算法的缺点：
产生类的大小相差不会很大，对于脏数据很敏感。
改进的算法：K-medoids方法。

这儿选取一个对象叫做mediod来代替上面的中心的作用，这样的一个medoid就标识了这个类。

K-MEDODIS的具体流程如下：
1）任意选取K个对象作为medoids（O1,O2,…Oi…Ok）。　　
2）将余下的对象分到各个类中去（根据与medoid最相近的原则）；　　
3）对于每个类（Oi）中，顺序选取一个Or，计算用Or代替Oi后的消耗—E（Or）。选择E最小的那个Or来代替Oi。这样K个medoids就改变了。
4）重复2、3步直到K个medoids固定下来。　　
不容易受到那些由于误差之类的原因产生的脏数据的影响，但计算量显然要比K-means要大，一般只适合小数据量。

给这篇博文评个分？最多可选1项

发起时间：2010-06-07 23:00 截止时间：2010-10-07 23:00 投票人数：0人

条状图
|

1.1分

0(0%)
2.2分

0(0%)
3.3分

0(0%)
4.4分

0(0%)
5.5分

0(0%)

投票已截止

最后投票

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report

前一篇：数据挖掘聚类算法之K-MEANS

后一篇：数据挖掘-分类算法

新浪BLOG意见反馈留言板　欢迎批评指正