加载中…
个人资料
Automation_2011
Automation_2011
  • 博客等级:
  • 博客积分:0
  • 博客访问:56,196
  • 关注人气:67
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
相关博文
推荐博文
谁看过这篇博文
加载中…
正文 字体大小:

基于残差分析的混合属性数据聚类算法

(2020-09-28 15:26:33)

聚类分析在医学、图像分割、生物学、电子商务、互联网等领域得到了广泛应用。在实际应用环境中,被聚类的数据通常含有数值属性和分类属性,例如医学检测报告不仅有血压、脉搏等数值属性,而且还存在性别、婚姻状况、疾病定性检验结果等分类属性。现有聚类算法大部分只能对数值属性数据聚类,不能对混合属性数据聚类,如K-means、FCM、DPC、CLUB等。为了解决混合属性数据聚类问题,学者们提出了一些混合属性数据聚类算法,如K-prototypes、EKP、IKP-MD、FKP-MD、DP-MD-FN,但在没有先验知识的情况下,这些算法难于确定聚类个数和选取合适的聚类中心。造成聚类精度不高,如何准确地确定聚类中心和聚类个数成为混合属性数据聚类领域亟待解决的问题。


以K-means为代表的基于划分的聚类算法以选取的初始聚类中心为基础,依据相似性将其余对象分配给相应的中心形成聚类,通过反复计算新的聚类中心和再分配,直至目标函数收敛为止,形成最终聚类。这种聚类中心计算方式和分配机制决定了这一类算法不能有效地处理非球形簇。DPC算法以局部密度峰值点为中心,中心周围低密度点的集合形成了以该峰值点为中心的一个聚类,其结构简单、易于理解。但聚类中心的选取需要人为参与,在缺少先验知识的情况下,算法的参数难以确定。CLUB算法通过k近邻建立密度骨架,并以此作为聚类的中心,将未标记的对象划归到距离最近的高密度对象所在的簇中形成聚类,有效的解决了桥接和同一个簇中出现多个聚类中心而导致错误划分的问题.但该算法只能处理数值属性数据集,并不能对混合属性数据进行聚类。


为了解决混合属性数据聚类问题,K-prototypes、EKP、IKP-MD、FKP-MD等算法以K-means聚类思想为基础,通过重定义相似性度量和改进聚类中心计算方式进行聚类,解决了K-means不能对混合属性数据聚类的问题。DP-MD-FN算法应用密度峰值技术和阈值截断方法对混合属性进行聚类,实现了聚类中心自动选取,但算法的参数鲁棒性较低。对混合属性数据聚类来说,如何降低聚类中心提取的偏差和更真实的反映数据的分布情况是提高聚类精度的关键问题。


针对混合属性数据聚类结果精度不高、聚类结果对参数敏感等问题,提出了基于残差分析的混合属性数据聚类算法(Clustering algorithm for mixed data based on Residual Analysis)RA-Clust。算法以改进的熵权重混合属性相似性度量对象间的相似性,以提出的基于KNN和Parzen窗的局部密度计算方法计算对象的密度,通过线性回归和残差分析进行聚类中心预选取,然后以提出的聚类中心目标优化模型确定真正的聚类中心,最后将其它对象按照距离高密度对象的最小距离划分到相应的簇中,形成最终聚类。在合成数据集和UCI数据集上的实验结果验证了算法的有效性.与同类算法相比,RA-Clust具有较高的聚类精度和鲁棒性。论文创新点如下:


1. 改进了混合属性数据的相似性度量;

2. 提出了一种基于KNN和Parzen窗的局部密度计算方法;

3. 提出了基于线性回归和残差分析的聚类中心预选取机制及聚类中心目标优化模型。

实验数据集以及部分实验结果如表1、2、3、4。


基于残差分析的混合属性数据聚类算法


基于残差分析的混合属性数据聚类算法

基于残差分析的混合属性数据聚类算法

基于残差分析的混合属性数据聚类算法

基于残差分析的混合属性数据聚类算法

基于残差分析的混合属性数据聚类算法

引用格式:邱保志, 张瑞霖, 李向丽. 基于残差分析的混合属性数据聚类算法. 自动化学报, 2020, 46(7): 1420-1432

文章链接:http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2018.c180030

 


 

作者简介


邱保志

郑州大学信息工程学院教授.主要研究方向为数据库, 先进智能系统, 数据挖掘.

E-mail: iebzqiu@zzu.edu.cn


张瑞霖

哈尔滨工业大学博士研究生. 主要研究方向为数据挖掘和机器学习.本文通信作者.

E-mail: zzurlz@163.com


李向丽

郑州大学信息工程学院教授.主要研究方向为计算机网络, 数据挖掘.

E-mail: iexlli@zzu.edu.cn


0

阅读 评论 收藏 转载 喜欢 打印举报/Report
  • 评论加载中,请稍候...
发评论

    发评论

    以上网友发言只代表其个人观点,不代表新浪网的观点或立场。

      

    新浪BLOG意见反馈留言板 电话:4000520066 提示音后按1键(按当地市话标准计费) 欢迎批评指正

    新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

    新浪公司 版权所有