加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

Stata:异常值检测算法-分离森林-iforest

(2023-02-04 16:42:32)
标签:

stata

异常值检测算法

分离森林

iforest

分类: Stata数据处理
全文阅读:https://www.lianxh.cn/news/70c082bb378cc.html

目录

 


1. 简介

iforest 是 isolation forest (分离森林) 的简称,适用于连续数据的异常检测。其中,异常检测又称“离群点检测”,是机器学习领域里应用较为广泛的一类问题。“异常”在这里指“容易被孤立的点”,即分布稀疏且距离高密度的点比较远的数据。基于此,可总结出“异常”的两个特征:

  • 异常数据跟样本中大多数数据不太一样;
  • 异常数据在整体数据中占比较小。

一般的异常检测方法主要是通过对正常样本的描述,给出一个正常样本在特征空间中的区域,对于不在这个区域中的样本,视为异常。这类方法只优化正常样本的描述,而不优化异常样本的描述,可能造成大量误报或只检测到少量异常。

其次,异常数据的一般刻画方法必须用到各种统计、距离、密度的量化指标来描述异常数据跟其他样本的疏离程度。而 iforest 通过直接孤立异常点来刻画数据的疏离程度,不只针对正常样本,也不用借助其他量化指标,因此更为简单和高效。


0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有