R语言中离群值的识别、描述、绘制与移除_量化投资

http://blog.sina.com.cn/u/5347837802

首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

R语言中离群值的识别、描述、绘制与移除

(2017-02-27 10:55:13)

标签：

r语言

数据分析师

数据科学家

数据挖掘

大数据分析

R语言中离群值的识别、描述、绘制与移除

统计学中离群值被定义为离开大部分观测较远的样本点，多数是由于测量误差而产生。因此，数据分析中离群值的识别和移除（如有必要）是很重要的一个步骤。

鉴定离群值的方法有很多种，包括基于标准差的方法和基于四分位距的Tukey法。本文我将使用不依赖余数据分布类型的Tukey法做演示，该方法的另一个优势是无需考虑数据均值和方差，而这两个统计量恰恰很容易被极端值（离群值）影响。

脚本

我写了一个脚本来识别、描述、绘制并移除离群值。我先利用箱线图来鉴定样本点是否为离群值。在R中可以使用boxplot.stats()$out命令来绘制这个图，该图能利用Tukey法将游离在1.5倍四分位距外的样本点单独绘制出来。在描述数据时，我喜欢汇报数据中离群值的百分比和其均值，同时我也会分别计算包含和移除离群值后数据的均值。而在各种数据图中，箱线图和直方图值最能体现离群值的存在感，因此在下面的脚本中，我将绘制包含和移除离群值的这两类图形。最后，在Selva的帮助下，我添加了一个简单问题（是/否）来询问是否要保留离群值。如果选择是，那么离群值将被NA取代。数据分析师培训

脚本如下：

ooutlierKD <- function(dt, var) {
     var_name <- eval_r(substitute(var),eval_r(dt))
     tot <- sum(!is.na(var_name))
     na1 <- sum(is.na(var_name))
     m1 <- mean(var_name, na.rm = T)
     par(mfrow=c(2, 2), oma=c(0,0,3,0))
     boxplot(var_name, main="With outliers")
     hist(var_name, main="With outliers", xlab=NA, ylab=NA)
     outlier <- boxplot.stats(var_name)$out
     mo <- mean(outlier)
     var_name <- ifelse(var_name %in% outlier, NA, var_name)
     boxplot(var_name, main="Without outliers")
     hist(var_name, main="Without outliers", xlab=NA, ylab=NA)
     title("Outlier Check", outer=TRUE)
     na2 <- sum(is.na(var_name))
     cat("Outliers identified:", na2 - na1, "\n")
     cat("Propotion (%) of outliers:", round((na2 - na1) / tot*100, 1), "\n")
     cat("Mean of the outliers:", round(mo, 2), "\n")
     m2 <- mean(var_name, na.rm = T)
     cat("Mean without removing outliers:", round(m1, 2), "\n")
     cat("Mean if we remove outliers:", round(m2, 2), "\n")
     response <- readline(prompt="Do you want to remove outliers and to replace with NA? [yes/no]: ")
     if(response == "y" | response == "yes"){
          dt[as.character(substitute(var))] <- invisible(var_name)
          assign(as.character(as.list(match.call())$dt), dt, envir = .GlobalEnv)
          cat("Outliers successfully removed", "\n")
          return(invisible(dt))
     } else{
          cat("Nothing changed", "\n")
          return(invisible(var_name))
     }
}

你可以直接运行这些代码，只要把其中的数据集和变量的名称替换下。

source("http://goo.gl/UUyEzD")
outlierKD(dat, variable)

一个例子:

Outliers identified: 58
Propotion (%) of outliers: 3.8
Mean of the outliers: 108.1
Mean without removing outliers: 53.79
Mean if we remove outliers: 52.82
Do you want to remove outliers and to replace with NA? [yes/no]: y
Outliers successfully removed

绘制的图形的例子：

http://www.cda.cn/uploadfile/image/20170226/20170226212018_27948.png

我知道这个脚本还可以添加不少功能和细节，很多地方还能优化

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report

前一篇：大数据营销时代,企业为什么要有互联网上的一亩三分地

后一篇：使用R写入Excel方法总结

新浪BLOG意见反馈留言板　欢迎批评指正