Stata：异常值检测算法-分离森林-iforest_Stata连享会

个人资料

微博

正文字体大小：大中小

Stata：异常值检测算法-分离森林-iforest

(2023-02-04 16:42:32)

标签：

分类： Stata数据处理

iforest 是 isolation forest (分离森林) 的简称，适用于连续数据的异常检测。其中，异常检测又称“离群点检测”，是机器学习领域里应用较为广泛的一类问题。“异常”在这里指“容易被孤立的点”，即分布稀疏且距离高密度的点比较远的数据。基于此，可总结出“异常”的两个特征：

一般的异常检测方法主要是通过对正常样本的描述，给出一个正常样本在特征空间中的区域，对于不在这个区域中的样本，视为异常。这类方法只优化正常样本的描述，而不优化异常样本的描述，可能造成大量误报或只检测到少量异常。

其次，异常数据的一般刻画方法必须用到各种统计、距离、密度的量化指标来描述异常数据跟其他样本的疏离程度。而 iforest 通过直接孤立异常点来刻画数据的疏离程度，不只针对正常样本，也不用借助其他量化指标，因此更为简单和高效。

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report