加载中…
正文 字体大小:

数据挖掘学习—孤立点分析(异类分析)

(2009-12-14 16:44:41)
标签:

lof

数据立方体

数据集

样本集

基本思想

教育

分类: 04.数据挖掘

    孤立点是指数据集中那些小模式数据,它可能是度量或执行错误所导致的, 也可能是固有数据变异性的结果。Hawkins给出了其本质性定义: 孤立点是在数据集中与众不同的数据, 使人怀疑这些数据并非随机偏差, 而是产生于完全不同的机制。一般的孤立点挖掘中存在两个基本任务:一是在给定的数据集合中定义什么样的数据可以被认为不一致的; 二是找到一个有效的方法来挖掘这样的孤立点。
   传统的孤立点挖掘算法
   目前已有的传统的孤立点挖掘算法主要包括四类算法基于统计的方法,基于距离的方法,基于密度的方法,基于偏离的方法和基于聚类的挖掘算法。
   基于统计的方法:
   基于统计的算法基本思想是根据数据集的特性事先假定一个数据分布的概率模型,然后根据模型的不一致性来确定异常。存在的问题是, 在许多情况下, 我们并不知道数据的分布, 而且现实数据也往往不符合任何一种理想状态的数学分布,这样就对后期的孤立点发掘产生了很大的困难。另一方面基于统计的方法比较适合于低维空间的孤立点挖掘,而实际的数据大多都是高维空间的数据,在这种情况下,事先估算数据的分布是很困难的.
    基于距离的方法:
    基于距离的算法的基本思想是以距离的大小来检测小模式,孤立点被认为是没有足够多的邻居。它可以描述为在数据对象集合中N中,至少有P个对象和对象O的距离大于d, 则对象O是一个带参数P和d的基于距离的异常点。基于距离的检测方法的优势在于他不需要事先了解数据集本身的特性,是与领域无关的,但是问题在于对参数P和D估计的困难性。不同的P和D参数的确定会对结果带来很大的影响。由于基于距离的方法的参数P和D是一定的所以发现的孤立点是全局孤立点。
   基于密度的方法:
   
基于距离的方法对全局各个聚类的数据提出了统一的P和D的参数,但是如果各个聚类本身的密度存在不同,则基于距离的方法则出出现问题,因此提出了基于密度模型的局部异常点挖掘算法,通过局部异常点因子LOF的计算来确定异常点, 只要一个对象的LOF远大于1, 它可能就是一个异常点。簇内靠近核心点的对象的LOF接近于1,处于簇的边缘或是簇的外面的对象的LOF相对较大,这样便能检测到局部异常点,更贴近于实际的数据集的特性。这种传统的局部异常点的挖掘算法的主要问题在于局部范围的参数Minpts值存在选择上的困难,可以运用多粒度偏差因子代替Minpts来评价,这样便能得到比较好的解决方案。
  
基于偏离的方法:
  
基于偏差的方法的基本思想是通过检查一组对象的主要特征来确定异常点, 如果一个对象的特征与给定的”描述”过分”偏离” , 则该对象被认为是异常点。现有的基于偏离的方法主要有序列异常技术和OLAP 数据立方体方法。前者是以样本集的总体的方差为相异度函数,描述了样本集的基本特征,所有背离这些特征的样本都是异常样本,这种方法在对异常存在的假设太过理想化, 对现实复杂数据效果不太好。而后者利用在大规模的多维数据中采用数据立方体确定反常区域,如果一个立方体的单元值显著地不同于根据统计模型得到的期望值,该单元值被认为是一个孤立点,当存在许多涉及多层概念层次的维时, 人工探测变得非常困难。
  基于聚类的方法:
基于聚类的方法的基本思想是将孤立点挖掘的过程转换成聚类的过程。首先将数据集利用已经成熟的模型进行聚类分析,是数据集形成簇,而那些不在簇中的样本点即被视为异常点进行再处理。除了上述所述的4中基本的聚类方法外,还包括基于网格的的方法等。

0

阅读 评论 收藏 转载 喜欢 打印举报
已投稿到:
  • 评论加载中,请稍候...
发评论

    发评论

    以上网友发言只代表其个人观点,不代表新浪网的观点或立场。

      

    新浪BLOG意见反馈留言板 不良信息反馈 电话:4006900000 提示音后按1键(按当地市话标准计费) 欢迎批评指正

    新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

    新浪公司 版权所有