过适-维基百科:
在统计学中,过适现象(英语:overfitting,或称:过度拟合)是指在调适一个统计模型时,使用过多参数。对比于可取得的资料总量来说,一个荒谬的模型模型只要足够复杂,是可以完美地适应资料。过适一般可以识为违反奥卡姆剃刀原则。当可选择的参数的自由度超过资料所包含资讯内容时,这会导致最后(调适后)模型使用任意的参数,这会减少或破坏模型一般化的能力更甚于适应资料。过适的可能性不只取决于参数个数和资料,也跟模型架构与资料的一致性有关。此外对比于资料中预期的噪声或错误数量,跟模型错误的数量也有关。
过适现象的观念对机器学习也是很重要的。通常一个学习算法是借由训练范例来训练的。亦即预期结果的范例是可知的。而学习者则被认为须达到可以预测出其它范例的正确的结果,因此,应适用于一般化的情况而非只是训练时所使用的现有资料(根据它的归纳偏向)。然而,学习者却会去适应训练资料中太特化但又随机的特征,特别是在当学习过程太久或范例太少时。在过适的过程中,当预测训练范例结果的表现增加时,应用在未知资料的表现则变更差。
在统计和机器学习中,为了避免过适现象,须要使用额外的技巧(如交叉验证、early
stopping、贝斯信息量准则、赤池信息量准则或model
comparison),以指出何时会有更多训练而没有导致更好的一般化。人工神经网络的过适过程亦被认知为过度训练(英语:overtraining)。在treatmeant
learning中,使用最小最佳支援值(英语:minimum best support value)来避免过适。
相对于过适是指,使用过多参数,以致太适应资料而非一般情况,另一种常见的现象是使用太少参数,以致于不适应资料,这则称为乏适(英语:underfitting,或称:拟合不足)现象。
过拟合-百度百科
overfitting
overfittingt是这样一种现象:一个假设在训练数据上能够获得比其他假设更好的拟合,但是在训练数据外的数据集上却不能很好的拟合数据。此时我们就叫这个假设出现了overfitting的现象。出现这种现象的主要原因是训练数据中存在噪音或者训练数据太少。而解决overfit的方法主要有两种:提前停止树的增长或者对已经生成的树按照一定的规则进行后剪枝。
百度中关于overfitting的标准定义:给定一个假设空间H,一个假设h属于H,如果存在其他的假设h’属于H,使得在训练样例上h的错误率比h’小,但在整个实例分布上h’比h的错误率小,那么就说假设h过度拟合训练数据。
..........................
以下概念由本人摘自《数据挖掘-概念与技术》
P186 过分拟合 即在机器学习期间,它可能并入了训练数据中的某些特殊的异常点,这些异常不在一般数据集中出现。
P212 由于规则可能过分拟合这些数据,因此这种评论是乐观的。也就是说,规则可能在训练数据上行能很好,但是在以后的数据上九不那么好。
............................
补充c4.5算法中的介绍 这个通俗易懂
决策树为什么要剪枝?原因就是避免决策树“过拟合”样本。前面的算法生成的决策树非常的详细而庞大,每个属性都被详细地加以考虑,决策树的树叶节点所覆盖的训练样本都是“纯”的。因此用这个决策树来对训练样本进行分类的话,你会发现对于训练样本而言,这个树表现堪称完美,它可以100%完美正确得对训练样本集中的样本进行分类(因为决策树本身就是100%完美拟合训练样本的产物)。但是,这会带来一个问题,如果训练样本中包含了一些错误,按照前面的算法,这些错误也会100%一点不留得被决策树学习了,这就是“过拟合”。C4.5的缔造者昆兰教授很早就发现了这个问题,他作过一个试验,在某一个数据集中,过拟合的决策树的错误率比一个经过简化了的决策树的错误率要高。那么现在的问题就来了,如何在原生的过拟合决策树的基础上,通过剪枝生成一个简化了的决策树?
源:http://blog.csdn.net/fengzhe0411/article/details/7165549
分享到:
相关推荐
主要介绍了tensorflow使用L2 regularization正则化修正overfitting过拟合方式,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
可以通过适当学习的平滑方法来缓解稳健的过度拟合 本文的代码 陈天龙*,张振宇*,刘思佳,常世宇,王章阳 概述 为了缓解健壮的过度拟合的有趣问题,我们研究了两种在对抗训练( AT )中注入更多学习平滑的经验方法...
在数学金融中,回测过度拟合与使用历史市场数据(回测)来制定投资策略有关,该策略从随机模式而不是变量信号中获利。 回测过度拟合现在被认为是在纸面上看起来不错的量化投资模型和策略在实践中往往令人失望的主要...
拟合曲面重构This paper proposes a general framework for overfitting control in surface reconstruction from noisy point data.The problem we deal with is how to create a model that will capture as much ...
什么是过拟合_(深度学习)__What_is_overfitting_(deep_learning)_
Better Deep Learning Train Faster, Reduce Overfitting, and Make ...通过清晰的解释、标准的 Python 库(Keras和TensorFlow 2)以及分步教程课程,您将发现如何更好地训练模型、减少过度拟合和做出更准确的预测。
Dropout:A Simple Way to Prevent Neural Networks from Overfitting.zip
回测优化器搜索能够最大化策略的模拟历史性能的参数组合,从而导致回测过度拟合。 性能膨胀的问题超出了回测。 更普遍的是,研究人员和投资者倾向于只报告积极的结果,这种现象被称为选择偏差。 不控制特定发现中...
因此,我们的模型不仅可以生成低秩度量矩阵以避免过度拟合,而且可以同时实现特征选择。 为了进行模型优化,导出了一种基于随机近端方法的在线算法,可以有效地解决该问题,且复杂度为O(d2)。 为了验证算法的有效...
matlab实线虚线代码
增加自由参数的数目提高了拟合的优良性,AIC鼓励数据拟合的优良性但是尽量避免出现过度拟合(Overfitting)的情况。所以优先考虑的模型应是AIC值最小的那一个。赤池信息准则的方法是寻找可以最好地解释数据但包含最少...
Tensorflow_17_dropout_解决_overfitting_问题_(神经网络_教学教程tutorial)
与过拟合有一个异曲同工的概念叫做奥卡姆剃刀原理。 奥卡姆剃刀原理是指:在科学研究任务中,应该优先使用较为简单的公式或者原理,而不是复杂的。 应用到深度学习任务中,可以通过减小模型的复杂度来降低过拟合的
我们演示了一个计算机程序,该程序设计了一个由普通证券组成的投资组合,例如标准普尔 500 指数的成分,通过样本内回测优化实现任何所需的配置文件。 不幸的是,该程序还表明,这些投资组合通常在较新的样本外数据上...
此文件包含三个文件,分别是模糊均值聚类算法,过拟合和减法聚类。
从学习到的分布中生成无限数量的合成数据样本的能力可以作为在处理小型原始数据集时对抗过度的一种补救措施。 当合成数据生成器被训练为具有瓶颈信息压缩结构的自动编码器时,我们还可以期望在生成的数据集中看到...
Tensorflow 17 dropout 解决overfitting 问题.mp4
模型的训练误差远小于它在测试数据集上的误差,我们称该现象为过拟合(overfitting) 容易引起过拟合、欠拟合的其中两个因素: 模型复杂度 降低模型复杂度的两个方法 添加正则化项(L1、L2) dropout 数据集大小 ...