深入解析岭回归与Lasso回归：原理、代码实战及最佳选择策略

2026-02-07 21:46:15 0条评论 2次阅读 0人点赞

在构建机器学习模型时，我们经常会遇到这样的困境：模型在训练数据上表现完美，但在测试集或新数据上却表现糟糕。这就是我们常说的“过拟合”。为了解决这个问题， regularization（正则化）技术应运而生，其中最著名的两种技术就是岭回归和Lasso回归。

在这篇文章中，我们将深入探讨这两种强大的线性回归变体。作为开发者，我们不仅需要理解它们背后的数学直觉，更需要掌握如何在Python中实际应用它们，以及在面对不同数据集时如何做出明智的选择。让我们一起来揭开它们的神秘面纱。

1 正则化的核心思想：为什么要引入惩罚？
2 什么是岭回归（L2正则化）？
3 什么是Lasso回归（L1正则化）？
4 岭回归与Lasso回归的深度对比
5 进阶技巧：如何优化你的模型
6 常见误区与最佳实践
7 总结与下一步

正则化的核心思想：为什么要引入惩罚？

在深入了解具体算法之前，让我们先达成一个共识：简单往往意味着更好的泛化能力。普通的线性回归试图最小化预测值与真实值之间的误差（均方误差）。然而，如果特征非常多，或者特征之间存在多重共线性，模型可能会变得极其复杂，赋予某些特征过大的权重，导致对噪声的过度敏感。

正则化的核心思想非常直观：我们在损失函数中添加一个“惩罚项”。这个惩罚项限制了模型系数（权重）的大小。想象一下，我们在告诉模型：“你可以拟合数据，但请保持‘低调’，不要让任何单个特征的权重膨胀得太大。”

什么是岭回归（L2正则化）？

岭回归，也被称为L2正则化，是处理多重共线性数据的首选方法之一。它的特点在于“温和”地处理权重。

工作原理

岭回归向损失函数中添加了一个惩罚项，这个项是系数的平方和。数学公式如下：

$$ Loss = \text{MSE} + \lambda \sum{i=1}^{n} wi^2 $$

在这里，$\lambda$ 是正则化参数，控制着惩罚的强度。

如果 $\lambda = 0$：这就变成了标准的线性回归。
如果 $\lambda \to \infty$：惩罚项占据主导，权重将趋近于零（但永远不会精确等于零）。

关键特性：收缩而非消除

岭回归的一个重要特性是，它会将系数“收缩”到零，但不会把它们变成完全的零。这意味着模型最终会保留所有的特征，但会降低那些影响较小的特征的重要性。对于特征之间存在高度相关性的情况（例如“房屋面积”和“房间数量”），岭回归会将它们的权重进行平均分配，而不是盲目地依赖其中一个。

Python实战：岭回归代码示例

让我们看看如何在Python中使用 scikit-learn 实现岭回归。我们将使用一个合成的数据集来演示。

import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import Ridge, LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.datasets import make_regression

# 1. 生成模拟数据
# 生成一个具有较多特征的数据集，其中部分特征是相关的
X, y = make_regression(n_samples=100, n_features=20, n_informative=10, noise=10, random_state=42)

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 2. 实例化并训练岭回归模型
# alpha参数对应我们公式中的lambda
ridge_model = Ridge(alpha=1.0) 
ridge_model.fit(X_train, y_train)

# 3. 对比普通线性回归
linear_model = LinearRegression()
linear_model.fit(X_train, y_train)

# 4. 查看系数对比
print("线性回归的前5个系数:")
print(linear_model.coef_[:5])
print("
岭回归的前5个系数:")
print(ridge_model.coef_[:5])

# 5. 评估性能
print(f"
线性回归 R2 Score: {linear_model.score(X_test, y_test):.4f}")
print(f"岭回归 R2 Score: {ridge_model.score(X_test, y_test):.4f}")

代码解析：

请注意观察输出的系数。你会发现，岭回归的系数绝对值通常比普通线性回归要小。这就是“收缩”效应在起作用。在实际项目中，我们可以通过调整 alpha 参数来找到模型泛化能力的最佳平衡点。

什么是Lasso回归（L1正则化）？

Lasso回归，全称是最小绝对收缩和选择算子（Least Absolute Shrinkage and Selection Operator），它采用了与岭回归完全不同的策略。

工作原理

Lasso回归向损失函数添加的是系数的绝对值之和。数学公式如下：

$$ Loss = \text{MSE} + \lambda \sum{i=1}^{n}

关键特性：稀疏性与特征选择

这是Lasso回归最迷人的地方：它具有产生稀疏解的能力。这意味着，对于不太重要的特征，Lasso回归会直接将其系数压缩为精确的零。

特征选择：Lasso不仅是在拟合数据，它还在自动做特征选择。它告诉我们要忽略哪些噪音。
模型简化：最终得到的模型只包含一部分原始特征，这使得模型更易于解释，且计算效率更高。

Python实战：Lasso回归与特征选择

下面的例子将展示Lasso如何将某些特征“归零”。

from sklearn.linear_model import Lasso
from sklearn.preprocessing import StandardScaler

# 为了演示Lasso的特性，我们生成一些稀疏数据（真实系数中很多是0）
# n_informative=5 意味着只有5个特征是真正有用的，其余15个是噪音
X_sparse, y_sparse = make_regression(n_samples=100, n_features=20, n_informative=5, noise=5, random_state=42)

# 数据预处理：Lasso对特征尺度非常敏感，必须在标准化后使用
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X_sparse)

# 划分数据
X_train_s, X_test_s, y_train_s, y_test_s = train_test_split(X_scaled, y_sparse, test_size=0.3, random_state=42)

# 实例化Lasso
# alpha越大，被压缩为0的特征越多
lasso_model = Lasso(alpha=0.1) 
lasso_model.fit(X_train_s, y_train_s)

# 查看结果
print(f"Lasso回归系数 (很多应为0): 
{lasso_model.coef_}")
print(f"
非零系数的数量: {np.sum(lasso_model.coef_ != 0)}")
print(f"总特征数量: {X_sparse.shape[1]}")

# 对比岭回归：岭回归虽然减小系数，但通常不会归零
ridge_model_s = Ridge(alpha=1.0)
ridge_model_s.fit(X_train_s, y_train_s)
print(f"
岭回归非零系数的数量: {np.sum(ridge_model_s.coef_ != 0)}")

代码解析：

运行这段代码时，你会看到Lasso模型的系数列表中充满了零。如果我们原本有20个特征，Lasso可能只保留了5或6个。这对于处理高维数据（例如基因序列分析或文本挖掘）极其有用，因为此时特征数量可能远远超过样本数量。

岭回归与Lasso回归的深度对比

为了帮助你在实际项目中做出正确的决策，让我们从多个维度详细对比这两种技术。

1. 几何直观差异

这是一个非常有趣的数学视角。我们可以把模型拟合想象为在一个约束条件下寻找最小值：

岭回归 (L2)：其约束区域是一个圆形（或超球体）。这个圆没有尖角，因此等高线（误差函数）通常最先接触到圆的“平滑”部分。这意味着坐标轴（特征权重）很少会恰好等于零。
Lasso回归 (L1)：其约束区域是一个菱形（或超立方体）。菱形有明显的尖角，位于坐标轴上。由于误差等高线很容易触碰到这些尖角，导致某些维度的系数直接变为零。

2. 性能差异对比表

特性维度

岭回归 (Ridge / L2)

Lasso回归 (Lasso / L1) :—

:—

:— 惩罚机制

系数的平方和 (L2 Norm)

系数的绝对值之和 (L1 Norm) 特征选择能力

无。保留所有特征，系数趋向于0但不等于0。

强。能够将不重要的特征系数压缩为0，实现自动特征筛选。 适用场景

特征之间存在高度相关性；所有特征都有贡献；预测性能优先。

只有少量特征是关键；需要简化模型解释；数据包含大量噪声或无关特征。 计算稳定性

总是有唯一解，计算稳定，有解析解。

当特征数量大于样本数量，或特征间高度相关时，可能随机选择其中一个特征（不稳定）。 求解算法

坐标下降法或最小二乘法的闭式解。

坐标下降法。

3. 现实世界中的决策指南

假设你在处理一个房价预测问题：

场景A：你拥有几十个特征，包括房屋面积、卧室数、当地GDP、犯罪率、学校评分等。你深信每一个特征都对价格有微小且独立的影响。这时，你应该使用岭回归。因为它能利用所有信息，并通过正则化防止模型对某些特定数据的过度敏感。

场景B：你拥有1000个潜在的特征，比如从图片中提取的像素值，或者是用户行为日志的数千种组合。你怀疑其中可能只有不到50个是真正有用的。这时，Lasso回归是你的不二之选。它会帮你清洗数据，剔除那95%的噪音。

进阶技巧：如何优化你的模型

仅仅知道怎么调用 INLINECODE4ef293e6 和 INLINECODE197c8476 是不够的。让我们聊聊如何让这些模型发挥最大效能。

1. 数据标准化是必须的

无论是岭回归还是Lasso，正则化惩罚是基于系数的大小计算的。如果特征之间的尺度差异巨大（例如“年龄”是0-100，“收入”是0-100000），正则化惩罚会对尺度大的特征不公平。你必须始终在使用这些回归之前对数据进行标准化（StandardScaler 或 MinMaxScaler）。

2. 寻找最优的 Alpha 参数

参数 $\lambda$ (在sklearn中叫 alpha) 是控制模型复杂度的旋钮。我们通常通过交叉验证来找到它。Scikit-learn 提供了专门的工具来帮助我们完成这件事：

from sklearn.linear_model import RidgeCV, LassoCV

# 使用RidgeCV自动寻找最佳alpha
# alphas是我们想要尝试的参数列表
ridge_cv = RidgeCV(alphas=[0.01, 0.1, 1.0, 10.0, 100.0], cv=5) 
ridge_cv.fit(X_train, y_train)
print(f"Ridge最佳 alpha: {ridge_cv.alpha_}")

# LassoCV 更加智能，它不仅自动搜索alpha，还自动处理数据的高效迭代
lasso_cv = LassoCV(cv=5, random_state=42)
lasso_cv.fit(X_scaled, y_train) # 注意LassoCV通常也需要标准化的数据
print(f"Lasso最佳 alpha: {lasso_cv.alpha_}")

3. 弹性网络：两全其美的选择

如果你实在拿不准主意，或者你想结合两者的优点，那么弹性网络 是完美的解决方案。

弹性网络同时使用L1和L2惩罚。其损失函数如下：

$$ Loss = \text{MSE} + \lambda1 \sum

+ \lambda2 \sum wi^2 $$

或者通常表示为：

$$ Loss = \text{MSE} + \alpha \rho \sum

+ \frac{\alpha (1-\rho)}{2} \sum wi^2 $$

其中 $\rho$ (l1_ratio) 控制着L1和L2的混合比例。

当 $\rho = 1$ 时，它就是 Lasso。
当 $\rho = 0$ 时，它就是 Ridge。
当 $0 < \rho < 1$ 时，它兼具两者的优点：像Lasso一样做特征选择，又像Ridge一样在相关特征组中保持稳定（不像Lasso那样在相关特征中随机选一个）。

from sklearn.linear_model import ElasticNet

# l1_ratio=0.5 表示混合使用 L1 和 L2
# alpha 控制整体正则化强度
elastic_net = ElasticNet(alpha=1.0, l1_ratio=0.5, random_state=42)
elastic_net.fit(X_train, y_train)
print(f"弹性网络 R2 Score: {elastic_net.score(X_test, y_test):.4f}")

常见误区与最佳实践

在我们结束之前，我想强调几个在实际开发中容易踩的坑：

不要忘记基准线：在直接跳到正则化回归之前，先跑一个简单的线性回归作为基准。如果基准模型没有过拟合，那你可能根本不需要正则化，或者只需要很小的正则化量。
解读系数时要小心：在Lasso回归中，如果两个特征高度相关，Lasso可能会随机选择其中一个并将另一个的系数设为0。不要误以为被设为0的特征就完全不重要，它可能只是被选中的那个特征的“替身”。
多重共线性的处理：如果特征间的相关性极高，岭回归通常比Lasso表现得更稳定。因为Lasso可能会因为相关性而导致模型方差增大（选谁不选谁变得很随机）。

总结与下一步

今天，我们一起深入探讨了岭回归与Lasso回归的世界。

我们了解到岭回归 (L2) 是一个“温和”的收缩器，它保留所有特征但降低其影响力，适合处理多重共线性问题。
我们见识了Lasso回归 (L1) 强大的特征选择能力，能够将噪音特征剔除，产生稀疏模型。
我们还学习了如何通过标准化数据和交叉验证来优化模型参数。

作为数据科学从业者，建议你下次在面对回归问题时，不要只满足于默认参数。尝试对比这三种模型（普通线性、Ridge、Lasso），看看哪个能为你的具体业务带来最大的价值。你会发现，仅仅是换一种正则化策略，往往就能带来意想不到的精度提升。

希望这篇文章能帮助你更好地理解并应用这些强大的工具。祝你建模愉快！

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客

深入解析岭回归与Lasso回归：原理、代码实战及最佳选择策略

正则化的核心思想：为什么要引入惩罚？

什么是岭回归（L2正则化）？

工作原理

关键特性：收缩而非消除

Python实战：岭回归代码示例

什么是Lasso回归（L1正则化）？

工作原理

关键特性：稀疏性与特征选择

Python实战：Lasso回归与特征选择

岭回归与Lasso回归的深度对比

1. 几何直观差异

2. 性能差异对比表

3. 现实世界中的决策指南

进阶技巧：如何优化你的模型

1. 数据标准化是必须的

2. 寻找最优的 Alpha 参数

3. 弹性网络：两全其美的选择

常见误区与最佳实践

总结与下一步

相关文章美国1G带宽/1T流量高速vps $17.99/年