深入解析 Lasso 回归：从理论到 Python 实战指南

2026-02-15 12:55:16 0条评论 1次阅读 0人点赞

在面对复杂的机器学习问题时，我们经常会遇到“维度灾难”或者特征数量远大于样本数量的情况。这时候，传统的线性回归模型往往会因为过拟合而表现不佳。你可能已经听说过正则化技术，但你知道如何利用它不仅能防止过拟合，还能自动筛选出最重要的特征吗？在这篇文章中，我们将深入探讨 Lasso 回归。我们将一起揭开 L1 正则化的神秘面纱，理解它是如何通过将系数压缩为零来实现特征选择，并学习如何在 Python 中高效地应用它来优化我们的模型。无论你是数据科学的新手还是寻求模型优化的资深开发者，这篇文章都将为你提供实用的见解和代码示例。

1 Lasso 回归的核心概念
2 深入理解数学原理
3 Lasso 回归实战代码详解
4 常见错误与最佳实践
5 总结与后续步骤

Lasso 回归的核心概念

Lasso 回归（Least Absolute Shrinkage and Selection Operator，最小绝对收缩和选择算子）是一种引入了 L1 正则化的线性回归技术。简单来说，它在标准的线性回归基础上，添加了一个“惩罚项”。这个惩罚项的作用非常强大：它不仅有助于控制模型复杂度、防止过拟合，更关键的是，它能够将某些特征的系数完全缩减为零。

这意味着什么？这意味着 Lasso 回归不仅能进行预测，还能充当一种嵌入式特征选择工具。对于包含噪声或冗余特征的高维数据集，Lasso 能够自动识别并忽略那些不重要的特征，从而使模型更加简洁、更具可解释性。

为什么选择 Lasso？

为了让你更好地理解 Lasso 的独特之处，我们来看看它的主要优势：

自动特征筛选：这是 Lasso 最迷人的特性。通过将不相关特征的系数压缩为 0，它帮我们省去了手动筛选特征的麻烦。
模型稀疏性：生成的模型只包含一小部分非零系数，这种“稀疏性”使得模型在预测时更加高效，也更容易解释。
处理多重共线性：当特征之间存在高度相关性时，Lasso 会从中选择一个，并将其余的系数缩减为 0，从而有效解决共线性问题。
防止过拟合：通过正则化约束，限制了模型的复杂度，提高了在未见数据上的泛化能力。

> 核心提示：Lasso 的核心在于 L1 正则化。它将模型权重的绝对值之和加到损失函数中。与倾向于让权重变小但不为零的 L2 正则化（岭回归）不同，L1 具有这种“硬阈值”效应，可以将不重要的权重直接“切”为零。

深入理解数学原理

虽然我们不想陷入过于复杂的数学推导，但了解 Lasso 的目标函数能帮助我们更好地调参。Lasso 回归的目标是最小化以下函数：

$$ \text{Minimize} \sum{i=1}^{n} (yi – \hat{y}i)^2 + \lambda \sum{j=1}^{p}

w_j

让我们拆解一下这个公式：

第一项 ($\sum (yi – \hat{y}i)^2$)：这是残差平方和（RSS）。它衡量了模型预测值与真实值之间的差异，也就是模型的“损失”或“误差”。我们的目标是让这个误差尽可能小。

第二项 ($\lambda \sum w_j
$)：这就是 L1 惩罚项。它是所有特征权重绝对值的和。

$\lambda$ (Lambda)：这是正则化强度参数（在 Scikit-learn 中通常称为 alpha）。它是调节偏差与方差之间平衡的旋钮。

偏差-方差权衡的艺术

在机器学习中，我们总是在寻找一个完美的平衡点：既要让模型足够复杂以捕捉数据的规律（低偏差），又要足够简单以忽略噪声（低方差）。Lasso 回归通过 $\lambda$ 参数直接控制这种权衡：

当 $\lambda = 0$ 时：惩罚项消失，Lasso 就变成了普通的线性回归。如果数据特征很多，模型极易过拟合（高方差，低偏差）。

当 $\lambda$ 适中时：正则化开始发挥作用。它通过牺牲一点点训练数据的拟合精度（增加偏差），来换取模型对测试数据的更好预测能力（降低方差）。这正是我们想要的。

当 $\lambda \to \infty$ 时：惩罚项占主导地位。为了最小化目标函数，模型会将所有系数都推向 0。此时模型变得过于简单（一条直线），导致欠拟合（高偏差，低方差）。

因此，找到最佳的 $\lambda$ 值是使用 Lasso 回归最关键的一步。通常，我们会使用交叉验证来寻找这个“黄金分割点”。

Lasso 回归实战代码详解

理论说得再多，不如动手敲一敲代码。让我们通过一系列完整的 Python 示例，看看如何在实际项目中使用 Lasso。我们将使用 scikit-learn 库，这是 Python 中最强大的机器学习工具之一。

示例 1：基础实现与自动特征筛选

在这个例子中，我们将创建一个包含 10 个特征的数据集，但实际上只有 5 个特征对目标变量有贡献。我们将观察 Lasso 如何识别并丢弃那 5 个无效特征。

首先，我们需要导入必要的库。在数据科学领域，NumPy 用于数值计算，Matplotlib 用于绘图，而 Scikit-learn 提供了机器学习算法。

import numpy as np
import matplotlib.pyplot as plt
# 导入数据集生成工具
from sklearn.datasets import make_regression
# 导入数据拆分工具
from sklearn.model_selection import train_test_split
# 导入 Lasso 回归模型
from sklearn.linear_model import Lasso
# 导入评估指标
from sklearn.metrics import mean_squared_error, r2_score

接下来，我们创建一个合成数据集。这里我们特意设置了 INLINECODE95279f11（5个有效特征）和 INLINECODEef352423（总共10个特征）。这意味着有 5 个特征是纯粹的噪声。这是一个测试 Lasso 特征筛选能力的绝佳场景。

# 生成示例数据集
# n_samples: 样本数量
# n_features: 特征总数
# n_informative: 有效特征数量（其他特征是噪声）
# noise: 数据噪声强度
# random_state: 随机种子，保证结果可复现
X, y = make_regression(
    n_samples=500, 
    n_features=10, 
    n_informative=5, 
    noise=15, 
    random_state=42
)

# 将数据拆分为训练集和测试集（80% 训练，20% 测试）
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

# 初始化 Lasso 回归模型
# alpha=0.1 是正则化强度的初始选择
lasso_model = Lasso(alpha=0.1)

# 训练模型
lasso_model.fit(X_train, y_train)

# 在测试集上进行预测
y_pred = lasso_model.predict(X_test)

# 评估模型性能
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"均方误差 (MSE): {mse:.2f}")
print(f"R² 分数: {r2:.2f}")
print("
模型系数:")
print(lasso_model.coef_)

代码解析：

运行上述代码后，仔细观察打印出的 模型系数。你会发现，大部分系数可能都接近于零，或者正好是零。特别是那些随机生成的噪声特征，它们的系数很可能被 Lasso 强行压缩成了 0。这就是 Lasso 的魔力所在——它自动帮我们做了特征选择，保留了最重要的特征，丢弃了无关的特征。

示例 2：可视化正则化路径

理解 $\lambda$ 如何影响系数是非常重要的。让我们编写一段代码，展示随着正则化强度（$\lambda$）的变化，各个特征系数是如何变化的。这通常被称为“正则化路径”。

import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import Lasso

# 使用同样的数据集 X, y (确保前面的代码已运行)

# 准备一系列不同的 alpha (lambda) 值，取对数刻度以便观察
alphas = np.logspace(-4, 1, 100) 

# 存储每个 alpha 对应的系数
coefs = []

# 训练一系列的 Lasso 模型
for a in alphas:
    lasso = Lasso(alpha=a, max_iter=10000)
    lasso.fit(X_train, y_train)
    coefs.append(lasso.coef_)

# 将列表转换为数组
coefs = np.array(coefs)

# 绘制正则化路径图
plt.figure(figsize=(12, 6))

# 为每个特征画一条线
for i in range(coefs.shape[1]):
    plt.plot(alphas, coefs[:, i], label=f‘Feature {i}‘)

plt.xscale(‘log‘) # X轴使用对数坐标
plt.xlabel(‘Alpha (正则化强度)‘)
plt.ylabel(‘Coefficients (系数值)‘)
plt.title(‘Lasso Regression: 正则化路径
plt.axis(‘tight‘)
# plt.legend() # 如果特征太多，图例可能会乱，可以注释掉
plt.grid(True)
plt.show()

实战见解：

在这个图表中，X 轴是 $\alpha$ 的值（从左到右越来越大），Y 轴是系数的大小。你会看到，随着 $\alpha$ 的增加（向右移动），系数线条逐渐下降并最终触及零点。那些最早触及零点的特征，往往就是最不重要的特征。这个可视化能帮助你直观地理解为什么 Lasso 是“稀疏”的。

示例 3：使用交叉验证寻找最佳参数

在之前的例子中，我们硬编码了 INLINECODE52a3328d。但在实际工作中，我们通常不知道最佳值是多少。这时候，INLINECODE81bcea0f 就派上用场了。它使用交叉验证（Cross-Validation）自动从一系列 alpha 值中挑选出表现最好的那个。这是最佳实践的做法。

from sklearn.linear_model import LassoCV

# 初始化 LassoCV
# cv=5 表示 5 折交叉验证
# alphas=None 表示模型自动尝试一系列 alpha 值
lasso_cv = LassoCV(cv=5, random_state=42, max_iter=10000)

# 训练模型（它会自动寻找最佳 alpha）
lasso_cv.fit(X_train, y_train)

# 输出最佳的 alpha 值
print(f"通过交叉验证选出的最佳 Alpha: {lasso_cv.alpha_:.5f}")

# 使用最佳模型进行预测
y_pred_cv = lasso_cv.predict(X_test)

# 评估性能
print(f"优化后的 R² 分数: {r2_score(y_test, y_pred_cv):.4f}")
print(f"剩余非零特征数量: {np.sum(lasso_cv.coef_ != 0)}")

这个方法不仅省去了手动调参的繁琐，还能确保模型具有最好的泛化能力。你会发现，这个模型在测试集上的表现通常会比随意设定 alpha 的模型要好。

示例 4：处理真实世界的数据（波士顿房价数据集风格）

让我们来看一个更接近实际的场景。在处理真实数据时，标准化是至关重要的步骤。因为 Lasso 对特征的尺度非常敏感，如果一个特征的数值范围很大（比如 0-10000），而另一个很小（0-1），数值大的特征在惩罚项中会占据主导地位。

import pandas as pd
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import make_pipeline

# 为了演示，我们重新生成一个具有不同量纲的数据集
# 假设 Feature 0 是房价（大数值），Feature 1 是房间数（小数值）
X_real, y_real = make_regression(n_samples=200, n_features=5, noise=0.5, random_state=42)

# 人为改变特征尺度，模拟真实情况
X_real[:, 0] = X_real[:, 0] * 1000  # 第一个特征数值很大

# 创建一个包含标准化的管道
# 这是一个非常重要的最佳实践：先标准化，再做 Lasso
model_pipeline = make_pipeline(
    StandardScaler(), 
    Lasso(alpha=0.1, random_state=42)
)

# 拆分数据
X_train_r, X_test_r, y_train_r, y_test_r = train_test_split(X_real, y_real, test_size=0.2, random_state=42)

# 训练管道
model_pipeline.fit(X_train_r, y_train_r)

# 获取 Lasso 模型（从管道中提取）
lasso_in_pipe = model_pipeline.named_steps[‘lasso‘]

print("未经标准化很难训练，但使用了 Pipeline 后一切变得简单。")
print(f"模型截距: {lasso_in_pipe.intercept_}")
print(f"标准化后的特征系数: {lasso_in_pipe.coef_}")

示例 5：与岭回归的直观对比

为了让你深刻理解 L1 和 L2 的区别，我们最后来做一个简单的对比。Lasso (L1) 倾向于产生稀疏解（很多零），而 Ridge (L2) 倾向于让所有系数都变小，但很少变为零。

from sklearn.linear_model import Ridge

# 生成一些简单的相关数据
np.random.seed(42)
X_comp = np.random.randn(100, 5)
# 只有两个特征是有效的
y_comp = X_comp[:, 0] * 2 + X_comp[:, 1] * -3.5 + np.random.randn(100) * 0.1 

# 训练 Lasso
lasso = Lasso(alpha=0.1).fit(X_comp, y_comp)

# 训练 Ridge
ridge = Ridge(alpha=0.1).fit(X_comp, y_comp)

print("对比 Lasso 和 Ridge 的系数结果:")
print(f"Lasso 系数 (很多0): {np.round(lasso.coef_, 2)}")
print(f"Ridge 系数 (都接近0但非0): {np.round(ridge.coef_, 2)}")

你会发现，Lasso 可能会非常激进地把第 3、4、5 个特征的系数直接变成 0，而 Ridge 则会给他们分配一个很小的非零值。如果你在做特征工程，需要剔除无用特征，Lasso 显然是更好的选择。

常见错误与最佳实践

在使用 Lasso 回归时，作为经验丰富的开发者，我们总结了一些你应该避开的“坑”和必须掌握的技巧：

忘记特征缩放：这是新手最容易犯的错误。如果特征不在同一量级（例如一个变量是年龄 18-90，另一个是工资 3000-100000），Lasso 会无法正确判断哪个特征重要。最佳实践：始终在 Lasso 之前使用 INLINECODEe3ef3507 或 INLINECODE6a77ec9a 进行标准化。正如我们在示例 4 中展示的那样，使用 Pipeline 可以优雅地解决这个问题。

忽视多重共线性：虽然 Lasso 能处理共线性，但当两个特征高度相关时，Lasso 会随机选择其中一个并将其系数缩减为 0，而忽略另一个。这可能会导致模型的不稳定性。如果你需要保留所有相关特征，或者只是想降低权重而不进行特征选择，岭回归 可能是更好的选择。

样本量少于特征数量 ($p > n$)：这是 Lasso 大显身手的时候。在基因数据或文本分析中，特征数往往成千上万，而样本只有几十个。普通回归此时会失效，但 Lasso 依然能工作得很好。

超参数调优：不要依赖默认的 INLINECODE09214d79。正如我们在示例 3 中演示的，使用 INLINECODE4fdf1525 进行交叉验证是找到最佳模型参数的唯一科学方法。

性能优化：对于非常大的数据集，Lasso 的计算速度可能会变慢，因为它使用坐标下降法。此时，可以考虑使用 INLINECODE78de3d6b 或 INLINECODEb01eade2 求解器（在 SGDRegressor 中实现），虽然它们是随机梯度下降的近似解，但在大规模数据上速度极快。

总结与后续步骤

在这篇文章中，我们不仅了解了 Lasso 回归背后的数学原理，更重要的是，我们通过实际的 Python 代码掌握了它的应用。我们看到了它是如何通过 L1 惩罚项将系数压缩为零，从而实现自动特征筛选的。

Lasso 回归是数据科学家工具箱中的一把利器，特别适用于那些需要从海量特征中提取关键信息的场景。它帮助我们在模型的预测精度和可解释性之间找到了完美的平衡。

作为你下一步的实战练习，我们建议你：

尝试将 Lasso 应用于你手头的真实数据集，对比一下使用 Lasso 前后模型 R² 分数的变化。
尝试调整不同的 $\lambda$ 值，观察正则化路径图，找出哪些特征是最稳健的（即最后才变成零的）。
探索 Elastic Net（弹性网络），这是一种结合了 Lasso (L1) 和 Ridge (L2) 优点的混合模型，它通常能比单纯的 Lasso 提供更稳健的表现。

希望这篇指南能帮助你更好地理解和使用 Lasso 回归。编程愉快！

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客