PyTorch实战：如何优雅地使用 Early Stopping 解决模型过拟合问题

2026-01-31 23:04:27 0条评论 2次阅读 0人点赞

在深度学习的实际项目中，你是否遇到过这样的困扰：模型在训练集上的准确率越来越高，损失值几乎降为零，但一旦放到测试集或实际业务中，表现却一塌糊涂？这就像是一个学生死记硬背了课本，却不会做灵活的考题。这就是典型的“过拟合”问题。

作为开发者，我们追求的是模型在“未见数据”上的泛化能力，而不仅仅是记忆训练数据。今天，我们将深入探讨一种既简单又极其有效的技术——Early Stopping（早停法），来攻克这一难题。我们将一起从原理出发，亲手在 PyTorch 中实现它，并讨论如何将其应用到实际工程中以节省宝贵的计算资源。

1 为什么我们需要 Early Stopping？
2 在 PyTorch 中从零实现 Early Stopping
3 实战中的常见陷阱与最佳实践
4 总结

为什么我们需要 Early Stopping？

在解决这个问题之前，我们需要先理解过拟合的根源。当我们训练神经网络时，我们实际上是在最小化损失函数。理想情况下，我们希望模型学到数据的普遍规律（信号），而不是数据特有的噪声。

想象一下，我们在教孩子认识动物。

欠拟合：孩子还没学明白，把猫也看成狗，甚至把椅子也看成狗。这是因为模型太简单或者训练时间不够。
良好的拟合：孩子学会了猫耳朵尖、狗鼻子长等特征，能准确区分。
过拟合：孩子记住了照片背景里的角落、光线角度等无关细节。如果你给他看一张在黑暗中拍的猫的照片，他就不认识了，因为这和他记忆里的“背景细节”不符。

在模型训练中，随着训练时间的增加，模型通常会经历一个过程：首先，训练误差和验证误差都会下降；接着，训练误差继续下降，但验证误差开始触底反弹。这个“转折点”就是我们梦寐以求的“最佳停止点”。

Early Stopping 的核心思想就是：在验证误差开始上升（即模型开始死记硬背噪声）之前，果断叫停训练。

Early Stopping 的核心优势

除了防止过拟合，这项技术还有两个非常实际的优点，特别是在计算资源昂贵的今天：

自动化模型选择：你不需要手动训练多个模型并对比验证集表现，Early Stopping 会在训练过程中自动帮你保存表现最好的那个版本。
节省时间与算力：对于大型模型，训练可能需要几天甚至几周。如果模型在第 50 个 epoch 就已经过拟合，我们完全没有必要为了挤出一丁点训练集上的提升而训练到第 1000 个 epoch。每一小时 saved 的 GPU 时间都是金钱。

在 PyTorch 中从零实现 Early Stopping

虽然 PyTorch 提供了丰富的工具，但它并没有内置一个直接可以“即插即用”的 Early Stopping 类（像 Keras 那样）。这其实给了我们很大的灵活性。接下来，让我们创建一个工业级的 EarlyStopping 类。

第 1 步：构建通用的 EarlyStopping 类

我们将设计一个类，能够监控验证损失，并在性能不再提升时停止训练。它还需要具备保存最佳模型权重的功能。

import numpy as np
import torch
import copy

class EarlyStopping:
    """在验证损失不再改善时提前停止训练。
    
    Args:
        patience (int): 在验证损失没有改善的情况下，等待多少个 epoch 后停止训练。
                        默认值为 7。
        verbose (bool): 如果为 True，会打印一条信息表示是否改善。
                        默认值为 False。
        delta (float): 被视为改善的最小变化量。
                       默认值为 0。
        path (str): 存储最佳模型权重的路径。
                   默认值为 ‘checkpoint.pt‘。
        trace_func (function): 用于日志记录的打印函数。
                               默认值为 print。
    """
    def __init__(self, patience=7, verbose=False, delta=0, path=‘checkpoint.pt‘, trace_func=print):
        self.patience = patience
        self.verbose = verbose
        self.counter = 0
        self.best_score = None
        self.early_stop = False
        self.val_loss_min = np.Inf
        self.delta = delta
        self.path = path
        self.trace_func = trace_func

    def __call__(self, val_loss, model):
        """
        此方法使类可以像函数一样被调用，用于在训练循环中检查状态。
        """
        # 我们使用负的验证损失，因为我们要最大化分数（即最小化损失）
        score = -val_loss

        if self.best_score is None:
            self.best_score = score
            self.save_checkpoint(val_loss, model)
        elif score = self.patience:
                self.early_stop = True
        else:
            # 如果有改善，重置计数器并保存模型
            self.best_score = score
            self.save_checkpoint(val_loss, model)
            self.counter = 0

    def save_checkpoint(self, val_loss, model):
        ‘‘‘当验证损失下降时，保存模型。‘‘‘
        if self.verbose:
            self.trace_func(f‘验证损失下降 ({self.val_loss_min:.6f} --> {val_loss:.6f}). 正在保存模型...‘)
        torch.save(model.state_dict(), self.path)
        self.val_loss_min = val_loss

代码深度解析：

Score 的处理：代码中使用了 score = -val_loss。在计算机科学和优化问题中，我们习惯于“越大越好”。因为损失是我们希望最小化的，所以将其取反，问题就变成了“最大化负损失”。这使得逻辑更符合直觉。

n2. Delta 参数：这是一个极其重要的参数。在实际项目中，验证损失可能会有微小的抖动（例如从 0.301 变到 0.3001）。这种微小的变化通常不具有统计显著性。通过设置 delta（例如 0.001），我们可以告诉系统：“除非损失减少了至少 0.001，否则不要认为这是一种进步”。这有助于避免模型在损失平台期频繁保存。

Checkpoint 机制：注意 INLINECODEb624257b 方法。它使用 INLINECODEa97c46d4。关键点：我们只保存模型的参数（权重），而不是整个模型对象。这是 PyTorch 的最佳实践，因为它能避免代码版本变动时加载模型出错。

第 2 步：准备实验环境

为了演示效果，我们需要一个容易过拟合的数据集。让我们使用经典的 MNIST 手写数字数据集，但我们会故意简化网络结构或数据量，以便更容易观察过拟合现象（虽然 MNIST 较简单，但在强噪声下仍会过拟合）。

import torch
import torch.nn as nn
import torch.optim as optim
from torchvision import datasets, transforms
from torch.utils.data import DataLoader, random_split

# 检查是否有 GPU，这将大大加快训练速度
device = torch.device(‘cuda‘ if torch.cuda.is_available() else ‘cpu‘)
print(f"正在使用设备: {device}")

# 数据预处理：转换为 Tensor 并标准化
transform = transforms.Compose([
    transforms.ToTensor(),
    transforms.Normalize((0.5,), (0.5,)) # 将图像像素从 [0, 1] 归一化到 [-1, 1]
])

# 下载数据
full_train_dataset = datasets.MNIST(root=‘./data‘, train=True, download=True, transform=transform)
test_dataset = datasets.MNIST(root=‘./data‘, train=False, download=True, transform=transform)

# 划分训练集和验证集
# 这一步至关重要：我们绝对不能使用测试集来决定何时停止训练！
train_size = int(0.8 * len(full_train_dataset))
val_size = len(full_train_dataset) - train_size
train_dataset, val_dataset = random_split(full_train_dataset, [train_size, val_size])

# 创建数据加载器
batch_size = 64
train_loader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True)
val_loader = DataLoader(val_dataset, batch_size=batch_size, shuffle=False)
test_loader = DataLoader(test_dataset, batch_size=batch_size, shuffle=False)

第 3 步：定义模型架构

这里我们定义一个简单的前馈神经网络（FNN）。为了让训练过程更有趣，我们加入了一个 Dropout 层。Dropout 和 Early Stopping 是防止过拟合的好搭档，但请注意，在本篇文章中，我们主要依靠 Early Stopping 来控制过拟合。

class SimpleNN(nn.Module):
    def __init__(self):
        super(SimpleNN, self).__init__()
        self.flatten = nn.Flatten()
        # 3 个线性层，逐渐减少神经元数量
        self.fc1 = nn.Linear(28*28, 128)
        self.fc2 = nn.Linear(128, 64)
        self.fc3 = nn.Linear(64, 10)
        self.relu = nn.ReLU()
        # Dropout 可以随机丢弃一部分神经元，防止模型过度依赖某些特征
        self.dropout = nn.Dropout(0.2) 

    def forward(self, x):
        x = self.flatten(x)
        x = self.relu(self.fc1(x))
        x = self.dropout(x)
        x = self.relu(self.fc2(x))
        x = self.fc3(x)
        return x

model = SimpleNN().to(device)

第 4 步：编写带有 Early Stopping 的训练循环

这是最关键的部分。通常我们只关心训练损失，但在这里，我们必须同时计算验证损失。

# 初始化超参数
learning_rate = 0.001
num_epochs = 100 # 设大一点，让 Early Stopping 自己决定何时停止

# 损失函数和优化器
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters(), lr=learning_rate)

# 初始化 Early Stopping
# patience=5 意味着如果验证损失连续 5 个 epoch 没有下降，就停止训练
early_stopping = EarlyStopping(patience=5, verbose=True)

print("开始训练...")
for epoch in range(1, num_epochs + 1):
    model.train() # 设置为训练模式
    train_loss = 0.0
    
    # --- 训练阶段 ---
    for data, target in train_loader:
        data, target = data.to(device), target.to(device)
        
        optimizer.zero_grad()           # 1. 清空过往梯度
        output = model(data)            # 2. 前向传播
        loss = criterion(output, target) # 3. 计算损失
        loss.backward()                 # 4. 反向传播
        optimizer.step()                # 5. 更新参数
        
        train_loss += loss.item() * data.size(0)
    
    # 计算平均训练损失
    train_loss = train_loss / len(train_loader.dataset)

    # --- 验证阶段 ---
    model.eval() # 设置为评估模式，这会关闭 Dropout
    val_loss = 0.0
    # 在验证阶段，我们不需要计算梯度，这能节省内存和计算时间
    with torch.no_grad():
        for data, target in val_loader:
            data, target = data.to(device), target.to(device)
            output = model(data)
            loss = criterion(output, target)
            val_loss += loss.item() * data.size(0)
    
    # 计算平均验证损失
    val_loss = val_loss / len(val_loader.dataset)

    # 打印日志
    print(f‘Epoch: {epoch} \t训练损失: {train_loss:.6f} \t验证损失: {val_loss:.6f}‘)

    # --- 核心：Early Stopping 检查 ---
    # 将当前验证损失和模型传入 early_stopping 对象
    early_stopping(val_loss, model)
    
    if early_stopping.early_stop:
        print("检测到验证损失不再下降，触发 Early Stopping！")
        break

第 5 步：加载最佳模型并测试

当训练循环因为 Early Stopping 而中断时，当前的 INLINECODE1cbcd57d 对象实际上并不是表现最好的那个（它是第 N 个 epoch 的模型，最好的是在第 N-5 个 epoch）。我们需要从磁盘中加载之前保存的 INLINECODEda900e4d。

# 加载最佳模型权重
model.load_state_dict(torch.load(‘checkpoint.pt‘))

# 最终测试评估
test_loss = 0.0
correct = 0
total = 0

model.eval()
with torch.no_grad():
    for data, target in test_loader:
        data, target = data.to(device), target.to(device)
        output = model(data)
        loss = criterion(output, target)
        test_loss += loss.item() * data.size(0)
        
        # 计算准确率
        _, pred = torch.max(output, 1)
        correct += torch.sum(pred == target).item()
        total += target.size(0)

test_loss = test_loss / len(test_loader.dataset)
accuracy = 100 * correct / total

print(f‘最终测试集损失: {test_loss:.6f}‘)
print(f‘最终测试集准确率: {accuracy:.2f}%‘)

实战中的常见陷阱与最佳实践

在把 Early Stopping 投入生产环境之前，我想分享几个你在开发过程中可能会遇到的坑，以及如何避免它们。

1. 忘记切换模式

你是否注意到了代码中的 INLINECODEb556cd48 和 INLINECODEc59b3a8e？

在 PyTorch 中，某些层（如 INLINECODEd4dfbbde 和 INLINECODE17596bc3）在训练和评估时的行为是不同的。如果在验证阶段不调用 model.eval()，Dropout 依然会随机丢弃神经元，导致你的验证损失剧烈波动，根本无法判断模型是否真的收敛了。这是一个新手常犯的致命错误。

2. 数据泄漏

请务必确保你的验证集是从训练集中分离出来的，并且模型在训练阶段从未见过验证集的数据。如果你在 Early Stopping 的逻辑中混入了测试集，你实际上是在“作弊”。这会导致你选择的模型在测试集上表现极好，但上线后效果依然很差。

3. Patience 的选择

Patience 值（耐心值）设置多少合适？

太小 (如 1 或 2)：模型可能在损失正常抖动时就停止了，导致模型欠拟合，没发挥出潜力。
太大 (如 20)：模型已经严重过拟合了才停下来，失去了 Early Stopping 的意义。

建议：对于大多数中小型任务，从 5 到 10 开始尝试。你可以绘制训练损失和验证损失的曲线图来辅助判断。

4. 保存模型 vs 保存 Checkpoint

在大型工业应用中，我们通常不仅仅保存 INLINECODE3d6f25ff，还会保存优化器的状态（INLINECODEe651f289）和当前的 Epoch 数。这允许我们在训练被意外中断（如断电、程序崩溃）后，从断点处继续训练，而不是从头开始。我们上面的 EarlyStopping 类是一个简化版，专注于处理过拟合问题。

5. 监控指标的选择

虽然我们这里使用了验证损失，但在某些任务中，监控准确率或其他业务指标可能更有意义。你可以修改 INLINECODE5cf5bcfe 类，使其接受 INLINECODE5ec4b2a3 而不是 INLINECODEa5fa05bb，并设定 INLINECODEf8912010 或 mode=‘max‘。例如，对于准确率，我们是希望它越大越好。

总结

在这篇文章中，我们不仅讨论了“为什么”，还详细展示了“怎么做”。我们了解到，过拟合是深度学习中的常态，而 Early Stopping 是我们手中的利器。

通过实现自己的 EarlyStopping 类并将其集成到训练循环中，我们不仅获得了一个更稳健的模型，还获得了一种更高效的工作流。你不再需要盯着控制台，猜测该在第几轮停止训练，代码会自动为你找到那个“恰到好处”的时刻。

我鼓励你复制上面的代码，尝试修改 INLINECODEa27fa119 和 INLINECODE96d7f153，或者换一个更复杂的数据集（如 CIFAR-10），看看 Early Stopping 如何在不同的环境中保护你的模型。训练神经网络是一场与数据的博弈，而现在，你掌握了更好的控制权。

希望这篇指南能帮助你写出更专业、更高效的 PyTorch 代码。下次当你看到训练曲线时，你就知道该怎么做了。祝编码愉快！

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客