overfitting(过度拟合)的概念

在统计学中，过适现象（英语：overfitting，或称：过度拟合）是指在调适一个统计模型时，使用过多参数。对比于可取得的资料总量来说，一个荒谬的模型模型只要足够复杂，是可以完美地适应资料。过适一般可以识为违反奥卡姆剃刀原则。当可选择的参数的自由度超过资料所包含资讯内容时，这会导致最后（调适后）模型使用任意的参数，这会减少或破坏模型一般化的能力更甚于适应资料。过适的可能性不只取决于参数个数和资料，也跟模型架构与资料的一致性有关。此外对比于资料中预期的噪声或错误数量，跟模型错误的数量也有关。

过适现象的观念对机器学习也是很重要的。通常一个学习算法是借由训练范例来训练的。亦即预期结果的范例是可知的。而学习者则被认为须达到可以预测出其它范例的正确的结果，因此，应适用于一般化的情况而非只是训练时所使用的现有资料（根据它的归纳偏向）。然而，学习者却会去适应训练资料中太特化但又随机的特征，特别是在当学习过程太久或范例太少时。在过适的过程中，当预测训练范例结果的表现增加时，应用在未知资料的表现则变更差。

在统计和机器学习中，为了避免过适现象，须要使用额外的技巧（如交叉验证、early stopping、贝斯信息量准则、赤池信息量准则或model comparison），以指出何时会有更多训练而没有导致更好的一般化。人工神经网络的过适过程亦被认知为过度训练（英语：overtraining）。在treatmeant learning中，使用最小最佳支援值（英语：minimum best support value）来避免过适。

相对于过适是指，使用过多参数，以致太适应资料而非一般情况，另一种常见的现象是使用太少参数，以致于不适应资料，这则称为乏适（英语：underfitting，或称：拟合不足）现象。

过拟合-百度百科

overfitting

overfittingt是这样一种现象：一个假设在训练数据上能够获得比其他假设更好的拟合，但是在训练数据外的数据集上却不能很好的拟合数据。此时我们就叫这个假设出现了overfitting的现象。出现这种现象的主要原因是训练数据中存在噪音或者训练数据太少。而解决overfit的方法主要有两种：提前停止树的增长或者对已经生成的树按照一定的规则进行后剪枝。

百度中关于overfitting的标准定义：给定一个假设空间H，一个假设h属于H，如果存在其他的假设h’属于H,使得在训练样例上h的错误率比h’小，但在整个实例分布上h’比h的错误率小，那么就说假设h过度拟合训练数据。

..........................

以下概念由本人摘自《数据挖掘-概念与技术》

P186 过分拟合即在机器学习期间，它可能并入了训练数据中的某些特殊的异常点，这些异常不在一般数据集中出现。

P212 由于规则可能过分拟合这些数据，因此这种评论是乐观的。也就是说，规则可能在训练数据上行能很好，但是在以后的数据上九不那么好。

............................

补充c4.5算法中的介绍这个通俗易懂

决策树为什么要剪枝？原因就是避免决策树“过拟合”样本。前面的算法生成的决策树非常的详细而庞大，每个属性都被详细地加以考虑，决策树的树叶节点所覆盖的训练样本都是“纯”的。因此用这个决策树来对训练样本进行分类的话，你会发现对于训练样本而言，这个树表现堪称完美，它可以100%完美正确得对训练样本集中的样本进行分类（因为决策树本身就是100%完美拟合训练样本的产物）。但是，这会带来一个问题，如果训练样本中包含了一些错误，按照前面的算法，这些错误也会100%一点不留得被决策树学习了，这就是“过拟合”。C4.5的缔造者昆兰教授很早就发现了这个问题，他作过一个试验，在某一个数据集中，过拟合的决策树的错误率比一个经过简化了的决策树的错误率要高。那么现在的问题就来了，如何在原生的过拟合决策树的基础上，通过剪枝生成一个简化了的决策树？

源：http://blog.csdn.net/fengzhe0411/article/details/7165549

分享到：