加载中…
个人资料
行走在路上
行走在路上
  • 博客等级:
  • 博客积分:0
  • 博客访问:2,095
  • 关注人气:2
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

过度拟合(overfittingt)

(2017-09-27 10:43:35)
分类: 机器学习算法
overfittingt是这样一种现象:一个假设在训练数据上能够获得比其他假设更好的拟合,但是在训练数据外的数据集上却不能很好的拟合数据。此时我们就叫这个假设出现了overfitting的现象。出现这种现象的主要原因是训练数据中存在噪音或者训练数据太少。而解决overfit的方法主要有两种:提前停止树的增长或者对已经生成的树按照一定的规则进行后剪枝。


百度中关于overfitting的标准定义:给定一个假设空间H,一个假设h属于H,如果存在其他的假设h’属于H,使得在训练样例上h的错误率比h’小,但在整个实例分布上h’比h的错误率小,那么就说假设h过度拟合训练数据。

维基百科中关于overfitting的标准定义:统计学中,过适现象(英语:overfitting,或称:过度拟合)是指在调适一个统计模型时,使用过多参数。对比于可取得的资料总量来说,一个荒谬的模型模型只要足够复杂,是可以完美地适应资料。过适一般可以识为违反奥卡姆剃刀原则。当可选择的参数的自由度超过资料所包含资讯内容时,这会导致最后(调适后)模型使用任意的参数,这会减少或破坏模型一般化的能力更甚于适应资料。过适的可能性不只取决于参数个数和资料,也跟模型架构与资料的一致性有关。此外对比于资料中预期的噪声或错误数量,跟模型错误的数量也有关。
过适现象的观念对机器学习也是很重要的。通常一个学习算法是借由训练范例来训练的。亦即预期结果的范例是可知的。而学习者则被认为须达到可以预测出其它范例的正确的结果,因此,应适用于一般化的情况而非只是训练时所使用的现有资料(根据它的归纳偏向)。然而,学习者却会去适应训练资料中太特化但又随机的特征,特别是在当学习过程太久或范例太少时。在过适的过程中,当预测训练范例结果的表现增加时,应用在未知资料的表现则变更差。
在统计和机器学习中,为了避免过适现象,须要使用额外的技巧(如交叉验证early stopping贝斯信息量准则英语Bayesian information criterion)、赤池信息量准则model comparison),以指出何时会有更多训练而没有导致更好的一般化。人工神经网络的过适过程亦被认知为过度训练(英语:overtraining)。在treatmeant learning中,使用最小较佳支援值(英语:minimum best support value)来避免过适。
相对于过适是指,使用过多参数,以致太适应资料而非一般情况,另一种常见的现象是使用太少参数,以致于不适应资料,这则称为乏适(英语:underfitting,或称:拟合不足)现象。
对于任一给定的数据,只要使作足够多的参数和适当的模型,就是一定能拟合很好,但参数或模型本身可能很复杂,且可以对该数据外的数据拟合不好。所以在做拟合时一定要兼顾高效与简单的原则。

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有