人工智能

过拟合

为什么模型在训练集上越来越准,却可能在真实世界里越来越笨?

过拟合不是模型“太差”,而是它把训练样本里的偶然噪声也当成了规律。看起来学得更多,实际上泛化能力更弱。

先动手

先试一次,再理解原理

先调模型复杂度和数据量,再对比训练曲线和测试曲线何时开始分叉。

互动实验

过拟合实验台

调节模型复杂度、数据量和正则化强度,观察训练集和测试集的表现为什么会先一起变好,然后开始分家。

训练表现77%
测试表现62%
当前结论泛化较平衡
参数调节复杂度 6 · 数据量 45 · 正则化 35 · 噪声 32收起

当模型复杂度持续升高时,训练集分数通常越来越漂亮;但如果测试集分数开始回落,说明模型已经开始记住噪声,而不是抓住可迁移的规律。

训练集测试集
如果加更多数据测试表现可提升到 71%展开

更多样本能让模型少记偶然细节,更容易学到稳定规律。

如果减少噪声测试表现可提升到 69%展开

训练样本越干净,模型越不容易把随机扰动误当成规律。

快速认识

先用一句话知道它是什么

过拟合是模型把训练数据里的偶然噪声也当成规律,导致对新数据的判断变差。

理解主线

再把关键变化顺下来

复杂模型通常更容易把训练样本拟合得很好。

如果复杂度高过头,模型会连偶然噪声也记住。

真正重要的不是训练集分数,而是新数据上的表现。

核心公式

用模型把关系写清楚

带正则化的训练目标

L = (1/n) Σ ℓ(f(xi), yi) + λΩ(θ)

模型不仅要把训练误差压低,还要通过正则项避免参数过度复杂,从而减少记噪声的倾向。

符号含义

  • 单个样本的损失函数
  • f(xi) 模型对样本 xi 的预测
  • yi 真实标签
  • λ 正则化强度
  • Ω(θ) 对模型复杂度的惩罚项

适用说明

  • 训练误差低不代表泛化好。
  • 实验里正则化滑块,本质上是在调 λ。

核心概念

把最重要的三个点讲清楚

欠拟合是没学到,过拟合是学过头

前者连主规律都没抓住,后者则把无关细节也背了下来。

测试集才更接近真实世界

它能帮助我们判断模型是不是只会做“原题”。

正则化和更多数据能缓解过拟合

本质上是在阻止模型太轻易地记住噪声。

现实应用

这些场景真的会用到它

医疗与金融风控模型验证

在高风险预测任务里,最怕模型只会做训练集里的“原题”,所以必须重点防过拟合。

推荐系统与广告排序

数据不断变化时,过拟合会让模型过度记住旧样本噪声,从而损害在线效果。

大模型评估与调参

数据量、正则化、早停和验证集设计,都是为了让模型学到可迁移规律而不是死记硬背。

继续探索

继续探索:从过拟合走向正则化、交叉验证与偏差-方差权衡。

返回首页继续浏览