深入解析：L1 与 L2 正则化如何防止过拟合及其实战应用

2026-02-08 19:39:19 0条评论 3次阅读 0人点赞

在机器学习的征途中，我们经常面临着这样一个棘手的难题：花费大量时间训练出的模型，在训练集上表现得完美无缺，可是一旦投入到实际场景中，面对新的、未见过的数据时，预测效果却大打折扣。这种现象就是我们熟知的过拟合。这就像一个学生在考前死记硬背了所有模拟题的答案，但没有真正理解背后的原理，一旦考试题目稍微变化，就会束手无策。

为了解决这一问题，提升模型的泛化能力，我们通常会采用一系列策略，比如增加数据量、使用 Dropout 技术或早停法。而在众多技术中，L1 和 L2 正则化 是最基础且最为有效的手段。它们就像是给复杂的模型加上了“紧箍咒”，通过数学上的巧妙约束，防止模型过分记住训练数据中的噪声。

在本文中，我们将深入探讨 L1 和 L2 正则化背后的数学直觉，看看它们究竟是如何工作的，以及我们如何在实战中通过代码（特别是 Python 和 Scikit-learn）灵活运用这些技术来优化我们的模型。你将学到具体的代码实现、调试技巧以及针对不同业务场景的最佳实践。

1 什么是过拟合，为什么我们需要正则化？
2 L1 与 L2 正则化的核心技术
3 实战演练：代码示例与深度解析
4 实战中的最佳实践与调优指南
5 常见错误与解决方案
6 总结与下一步

什么是过拟合，为什么我们需要正则化？

简单来说，过拟合发生的原因是模型“太努力”了。当模型拥有很高的复杂度（例如多项式次数过高或神经网络层数过深），它不仅学会了数据中的潜在规律，还把数据中的随机噪声和异常值也当作规律记了下来。这就导致了模型在训练集上的 Loss 极低，但在测试集上的表现却很差。

为了直观地理解这一点，我们可以从“权重”的角度来看。

权重的意义：模型中的权重（$w$）决定了特征对结果的影响程度。过拟合的模型往往具有非常大的权重值，因为只有通过剧烈的波动（大幅度的系数），才能拟合那些偶然的噪声点。
正则化的思路：我们的核心思想是——如果权重（系数）的数值能够保持在较小的水平，模型的曲线就会更加平滑，对输入数据的微小变化就不会那么敏感，从而能够更好地泛化。

正则化通过在损失函数中添加一个“惩罚项”，强制模型在最小化预测误差的同时，也要最小化权重的大小。

L1 与 L2 正则化的核心技术

让我们深入了解这两种技术的本质区别。L1 和 L2 正则化最核心的区别在于它们对权重的惩罚方式不同：L1 侧重于权重的绝对值，而 L2 侧重于权重的平方。

L1 正则化

L1 正则化，也被称为 Lasso (Least Absolute Shrinkage and Selection Operator) 正则化。它在损失函数中增加了一个与权重绝对值成正比的惩罚项。

数学公式：

$$L{new} = L{original} + \lambda \sum{i=1}^{n}

其中 $\lambda$ 是控制正则化强度的超参数。

它是如何工作的？

L1 正则化的一个显著特性是它倾向于产生“稀疏”解。这意味着它可以将许多不重要的特征权重直接压缩为 0。这就好比我们在清理房间时，L1 正则化会直接把不常用的东西扔进垃圾桶。这使得 L1 非常适合用于特征选择，帮助我们剔除数据中的冗余特征。

L2 正则化，通常被称为 Ridge 岭回归。它在损失函数中增加了一个与权重平方值成正比的惩罚项。

数学公式：

$$L{new} = L{original} + \lambda \sum{i=1}^{n} wi^2$$

它是如何工作的？

与 L1 不同，L2 正则化虽然会极力缩小权重的数值，但很少会让它们恰好等于 0。它会让所有相关的特征共同承担预测的责任，权重分布更加均匀。这就好比 L1 是“赢家通吃”，而 L2 是“雨露均沾”。这使得 L2 在处理多重共线性（特征之间高度相关）的问题时表现得非常稳健。

实战演练：代码示例与深度解析

为了让你真正掌握这些技术，让我们通过 Python 的 scikit-learn 库来进行实战演练。我们将使用一个简单的合成数据集来展示 L1 和 L2 的不同效果。

场景设置

假设我们有一组特征很多，但实际上只有少数几个特征是有效的数据。我们将对比普通线性回归、Lasso (L1) 和 Ridge (L2) 的表现。

import numpy as np
import pandas as pd
from sklearn.datasets import make_regression
from sklearn.linear_model import LinearRegression, Lasso, Ridge
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
import matplotlib.pyplot as plt

# 1. 生成合成数据
# 我们生成 100 个样本，每个样本有 10 个特征
# 但实际上，只有 5 个特征是有用的，剩下的 5 个是噪音
X, y = make_regression(n_samples=100, n_features=10, n_informative=5, noise=10, random_state=42)

# 将数据分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 定义一个函数来展示结果
def evaluate_model(model, model_name):
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    mse = mean_squared_error(y_test, y_pred)
    print(f"{model_name} - 测试集 MSE: {mse:.2f}")
    return model.coef_

print("--- 模型对比 ---")

# 2. 训练普通线性回归 (无正则化)
lr = LinearRegression()
coef_lr = evaluate_model(lr, "普通线性回归")

# 3. 训练 Lasso (L1 正则化)
# alpha 参数对应我们公式中的 lambda
# alpha 越大，正则化强度越大，更多的系数会被压缩为 0
lasso = Lasso(alpha=0.1) 
coef_lasso = evaluate_model(lasso, "Lasso (L1) 正则化")

# 4. 训练 Ridge (L2 正则化)
# Ridge 的惩罚项是权重的平方，对异常值稍微敏感一些，但通常更稳定
ridge = Ridge(alpha=1.0) 
coef_ridge = evaluate_model(ridge, "Ridge (L2) 正则化")

print("
--- 权重系数对比 ---")
print(f"普通回归系数 (部分): {coef_lr[:5]}... (通常所有系数都不为0)")
print(f"Lasso 系数 (部分): {coef_lasso[:5]}... (注意观察有多少个 0)")
print(f"Ridge 系数 (部分): {coef_ridge[:5]}... (数值很小，但通常不为0)")

代码深度解析：

数据生成：我们特意制造了包含噪音特征的数据集。对于这样的数据，普通线性回归往往会犯错，它试图为那 5 个无用的噪音特征也分配权重来拟合目标值。

n2. 参数 INLINECODE9304ac84 ($\lambda$)：在代码中，INLINECODE9c674e61 控制正则化的力度。

– 如果 alpha = 0，就是普通的线性回归。

– 如果 alpha 非常大，惩罚项占主导，L1 会让所有权重都变为 0（模型变成一条直线），L2 会让权重无限接近 0。

结果解读：当你运行这段代码时，你会发现 Lasso 的系数列表中会出现许多个 0.00。这就是 L1 的威力——自动进行特征选择。而 Ridge 的系数通常都很小，但几乎都不为 0，这说明它利用了所有特征，但降低了单个特征的影响力。

进阶示例：在真实的波浪数据上可视化过拟合

让我们看一个更具视觉冲击力的例子。我们将拟合一个带有噪声的正弦波。这是一个非常经典的非线性的回归问题。

import numpy as np
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression, Lasso
from sklearn.pipeline import Pipeline
import matplotlib.pyplot as plt

# 设置随机种子
np.random.seed(42)

# 1. 生成正弦波数据，并加入噪声
m = 20
X = 3 * np.random.rand(m, 1)
y = 1 + 0.5 * np.sin(2 * X[:, 0]) + np.random.randn(m) / 2.5

# 创建测试数据用于画图
X_new = np.linspace(0, 3, 100).reshape(100, 1)

def plot_predictions(model_class, model_params, title, ax):
    # 构建管道：先生成多项式特征（高次方），然后拟合模型
    # degree=30 是非常高的维度，极易导致过拟合
    model = Pipeline([
        ("poly_features", PolynomialFeatures(degree=30, include_bias=False)),
        ("model", model_class(**model_params))
    ])
    model.fit(X, y)
    y_new = model.predict(X_new)
    
    # 绘图
    ax.plot(X_new, y_new, linewidth=2, label=title, color=‘r‘)
    ax.plot(X, y, "b.", markersize=10)
    ax.set_xlabel("X")
    ax.set_ylabel("y")
    ax.set_title(title)
    # 统一坐标轴范围以便对比
    ax.set_ylim([-1, 3])

fig, axs = plt.subplots(1, 3, figsize=(18, 5))

# 1. 普通线性回归 (无正则化) - 严重过拟合
# 模型会疯狂波动以拟合每一个噪点
plot_predictions(LinearRegression, {}, "无正则化 (严重过拟合)", axs[0])

# 2. L2 正则化 (Ridge) - 较平滑的曲线
# alpha=10 会强力约束权重的平方，使曲线平滑
plot_predictions(Ridge, {"alpha": 10}, "L2 正则化 (平滑)", axs[1])

# 3. L1 正则化 (Lasso) - 稀疏特征
# alpha=0.01 会强制许多高次项的系数归零，简化模型
plot_predictions(Lasso, {"alpha": 0.01}, "L1 正则化 (稀疏)", axs[2])

plt.show()

在这个例子中发生了什么？

左图 (无正则化)：你看那条红色的曲线，它剧烈地震荡，试图穿过每一个蓝色的点。这就是过拟合的典型表现。如果有一个新的数据点进来，预测结果可能偏差极大。
中图 (L2)：红线变得非常平滑，忽略了部分的噪声。这就是我们在大多数场景下想要的效果——捕捉趋势，忽略噪声。
右图 (L1)：在高维多项式回归中，L1 可能会判定某些 $x$ 的高次方项（如 $x^{10}, x^{20}$）是无关紧要的，直接把它们的系数置为 0。这使得模型变得简单且稳定。

实战中的最佳实践与调优指南

理解了原理和代码后，让我们聊聊在实际项目开发中，我们该如何选择和调整这些参数。

1. 如何选择 $\lambda$ (或 alpha)？

$\lambda$ 是正则化中最重要的超参数。

$\lambda$ 太小：正则化效果微弱，模型依然会过拟合。
$\lambda$ 太大：模型会被欠拟合。例如 L1 可能会把所有有用的特征也删掉了，L2 会让模型变得过于简单（只剩下截距项）。

解决方案：永远不要凭感觉设定。我们可以使用 交叉验证 来寻找最优的 $\lambda$ 值。Scikit-learn 提供了非常方便的工具：

INLINECODE54d45dec 和 INLINECODEeee9005c：这两个类内部自动通过 K-Fold 交叉验证来选择最好的 alpha。

from sklearn.linear_model import LassoCV, RidgeCV

# LassoCV 会自动尝试一系列 alpha 值并选出最好的
lasso_cv = LassoCV(cv=5, random_state=42)
lasso_cv.fit(X_train, y_train)

print(f"Lasso 选出的最佳 alpha: {lasso_cv.alpha_}")
print(f"最佳模型得分: {lasso_cv.score(X_test, y_test)}")

2. 特征缩放至关重要！

这是一个初学者极易踩的坑。L1 和 L2 正则化对所有特征一视同仁地进行惩罚。如果你的特征量纲不同（例如，“年龄”是 0-100，“工资”是 10000-100000），正则化会倾向于惩罚数值较小的特征（因为数值大的特征本身对应的 $w$ 就会小，由于 $\lambda

$ 是公用的，大数值特征的 $w$ 较小，惩罚少，这会导致模型不公平。

解决方案：在应用 L1/L2 之前，务必使用 INLINECODEbaa42554 或 INLINECODE83d02b95 对数据进行标准化或归一化处理。

from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import make_pipeline

# 创建一个包含预处理和模型的管道
# 这是工业界标准的写法，可以防止数据泄露
pipeline = make_pipeline(
    StandardScaler(),
    Lasso(alpha=0.1)
)

pipeline.fit(X_train, y_train)

3. 什么时候用 L1，什么时候用 L2？

首选 L2：如果你认为特征之间存在相关性，或者你并不确定哪些特征重要，L2 通常是更安全、更稳定的选择。
首选 L1 (Lasso)：如果你怀疑数据集中包含大量无用的垃圾特征（例如文本分类中的生僻词，或者是基因数据中的无效基因），或者你需要一个可解释性强的模型，希望模型告诉你“只用这 3 个特征就够了”，那么 L1 是你的不二之选。
折中方案 ElasticNet：有时候我们会结合两者，使用 Elastic Net（L1 + L2 的混合）。它兼具了 L1 的特征选择能力和 L2 的稳定性，特别是在特征数量远大于样本数量的时候效果很好。

常见错误与解决方案

在多年的开发经验中，我总结了一些大家在刚接触正则化时常犯的错误：

忘记预处理数据：正如上面提到的，不对特征进行缩放直接跑正则化，结果往往是不可靠的。
忽视了特征之间的相关性：在使用 Lasso (L1) 时，如果两个特征高度相关（比如“出生年”和“年龄”），Lasso 可能会随机地选择其中一个并将其保留，而把另一个置为 0。这会让模型的可解释性变得微妙（你不知道为什么另一个特征被丢弃了）。如果你需要保留相关特征组，L2 或 ElasticNet 会更合适。
对 L1 的优化困难：由于 L1 的绝对值项在 0 点处不可导，某些基于梯度的优化算法（如基础的 SGD）可能会卡在 0 点附近难以收敛。不过现在 Scikit-learn 中的底层实现（如坐标下降法）已经处理得很好了，但在深度学习框架中自己实现时需要注意这一点。

总结与下一步

在这篇文章中，我们一起攻克了过拟合这个顽固的堡垒。我们了解到，L1 和 L2 正则化就像是模型训练中的“风险控制官”，通过在损失函数中增加惩罚项，它们有效地限制了模型的复杂性。

L1 (Lasso)：通过绝对值惩罚，擅长特征选择，能生成稀疏模型。
L2 (Ridge)：通过平方惩罚，擅长处理多重共线性，让权重分布更均匀，增加模型稳定性。

给读者的建议： 仅仅理解公式是不够的。我强烈建议你打开你的 Python 编辑器，尝试将代码示例中的数据集换成你自己业务中的数据，或者调整一下 alpha 参数，观察模型系数的变化。你会发现，哪怕只是微小的参数调整，也可能带来模型性能的显著提升。

希望这篇深度指南能帮助你在机器学习的道路上走得更稳、更远。如果你在实战中遇到了关于正则化的其他问题，欢迎随时交流探讨！

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客