bias和variance_梁斌

http://blog.sina.com.cn/u/1497035431

首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

bias和variance

(2012-10-11 22:15:48)

标签：

杂谈

回头看几个机器学习算法，比如：KNN是典型的 high v + low b的打法，容易被周围k个邻居拉拢，因此结果很飘忽，不稳定，容易出bad case。但往往因为信赖的是周围的邻居，所以学习的结果期望和ground truth还是比较接近的，

再比如我们设计一个学习算法，预测股票价格，任何一个input，我的学习结果都是20块，那么这个一定是low v + high b，甚至可以是无v + high b。也就是方差为0，但bias巨大。因此我们可以得到下图结论。模型越简单，对ground truth的刻画越naive，往往是low v，high b的极端。如果模型越复杂，对training set的刻画越描龙画风，溜须拍马，恨不得完全一致，则会出现high v，low b的极端。这两个极端都会导致预测错误，那么总会有一个平衡，就是"即比较simple，一般化，又能做到对ground truth的准确刻画"，虽然牺牲了在training set上的准确性，但避免了过拟合的问题。

Everyone in machine learning knows about overfitting, but it comes in many forms that are not immediately obvious.One way to understand overfitting is by decomposing generalization error into bias and variance [9]. Bias is a learner’s tendency to consistently learn the same wrong thing. Variance is the tendency to learn random things irrespective of the real signal. Figure 1 illustrates this by an analogy with throwing darts at a board.

Figure 2 模型的若干关系

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report

前一篇：size_t

后一篇：pennyliang名单

新浪BLOG意见反馈留言板　欢迎批评指正