随机森林中的out of bag error
(2015-06-16 14:23:11)
标签:
提升方法机器学习 |
分类: 计算机技术 |
[译者按]:这篇文献主要翻译自参考文献[1],在oob部分,使用文献[2]稍作说明。
训练数据集为
T = {(X1,y1), (X2,y2), ... (Xn, yn)}
Xi {xi1, xi2, ... xiM},是输入向量
yi 是标签.
随机森林总结:
随机森林算法是一个分类器算法,主要基于两种方法
- Bagging
- Random subspace method.
假设在森林中我们设定s棵树,首先我们生成 S
T1,
T2, ... TS}
. Ti
Bootstrapping
.
(en.wikipedia.org/wiki/Bootstrapping_(statistics))
Bagging
现在, RF S
m
(=sqrt(M) or =floor(lnM+1))
所以对每个Ti
Ki
. D
= {x1, x2, ..., xM}
S
Y
= {y1, y2, ..., ys}
. 最终预测结果通过大多数投票策略决定.
Out-of-bag error:
在生成s个分类器后 S
棵树), (Xi,yi)
Tk.注意,这个子集,是一个
boostrap n
Tk
(xi,yi)
.
从另外一个角度来解释oob方法如下:
每一棵树都通过使用不同的
bootstrap
对于构建第k棵树时候没有用到的每条记录,让它们过一遍第k棵树,进而获得一个分类.通过这种方法, 对任何一条记录来说,大概有1/3
的树没有用这条记录来构建,因而对这些树可以进行测试集上的数据分类。最终,
Out-of-bag
那么它为什么重要? Breiman [1996b]在对
bagged
[1]http://stackoverflow.com/questions/18541923/what-is-out-of-bag-error-in-random-forests
[2]http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm