精通特征选择：如何利用 SelectFromModel 和 LassoCV 在 Scikit-Learn 中优化模型

2026-02-08 14:51:27 0条评论 2次阅读 0人点赞

在机器学习的实际项目中，你是否曾遇到过这种情况：手头的数据集有成百上千个特征，却不知道哪些才是真正有价值的？或者，你的模型在训练集上表现完美，但在测试集上却一塌糊涂？这通常就是所谓的“维度灾难”和过拟合。作为开发者，我们都知道“垃圾进，垃圾出”的道理，因此，特征选择不仅是数据预处理中的关键一步，更是决定模型上限的核心环节。

在这篇文章中，我们将深入探讨一种高效且自动化的特征选择方法。我们将不再依赖直觉或繁琐的统计测试，而是结合 Scikit-Learn 中的 INLINECODE83a9b975 和 INLINECODE77ea2957 这大利器。我们将学习如何通过 L1 正则化让模型自动“告诉你”哪些特征重要，并利用 SelectFromModel 这把“筛子”过滤掉噪声。更重要的是，我们将融入 2026 年的最新开发理念，探讨如何在现代 AI 辅助的工作流中，以一种更“智能”和“工程化”的方式来处理这些任务。

核心概念解析：为什么 Lasso 和 SelectFromModel 是黄金搭档？

在开始写代码之前，让我们先搞清楚这两个核心组件背后的原理。理解了它们各自的角色，你就能明白为什么把它们组合在一起如此强大。

#### 1. L1 正则化与 LassoCV：让模型学会“断舍离”

首先，我们需要理解 L1 正则化（Lasso Regression）。在普通的线性回归中，我们的目标是最小化预测误差。而 Lasso 回归在误差函数的基础上加入了一个“惩罚项”——即系数的绝对值之和。

你可以把这个惩罚项想象成一种“税务”系统。如果模型想要给某个特征赋予很大的权重（系数），它就需要支付很高的“税”。对于预测目标贡献不大的特征来说，为了支付这个税，模型会倾向于将其权重直接压缩为 0。

这就导致了稀疏性：Lasso 能自动将不重要的特征系数变为 0，从而实现特征选择的效果。

但这里有一个难题：Lasso 中的正则化强度 INLINECODE4f8aed74（惩罚力度）很难确定。如果 INLINECODE6f90505f 太大，所有系数都变成 0，模型什么也学不到；如果 INLINECODEcb2c0da8 太小，又起不到筛选作用。这就是 INLINECODEd0d1860d 登场的时候。INLINECODEd5d4a736 代表交叉验证，INLINECODEad7b2273 会自动尝试不同的 alpha 值，并找出一个能让我们模型在验证集上表现最好的那个值。这样，我们就无需手动调参，让算法自己找到最佳的平衡点。

#### 2. SelectFromModel：基于重要性的智能过滤器

虽然 LassoCV 能帮我们算出系数，甚至把部分系数变成 0，但在实际工程中，我们通常需要一个显式的步骤来“切除”那些无用的列。这时，SelectFromModel 就派上用场了。

SelectFromModel 是一个元转换器，它的作用非常直观：它接收一个训练好的模型（比如我们的 LassoCV），查看该模型计算出的特征重要性或系数，然后根据一个预设的阈值来选择特征。

如果特征的重要性高于阈值，保留。
如果低于阈值，丢弃。

这种组合非常完美：LassoCV 负责“评分”并找出最佳的正则化力度，SelectFromModel 负责“执行”筛选操作。

2026 开发范式：打造企业级特征选择流水线

在我们最近的一个企业级推荐系统项目中，我们深刻体会到，仅仅写几行脚本是不够的。随着 2026 年 AI-Native（AI 原生） 开发理念的普及，我们需要更严谨、更易于维护的代码结构。我们将使用 Pipeline 将预处理和特征选择封装在一起，这不仅能防止数据泄露，还能让我们的模型更方便地部署到生产环境。

#### 第一步：环境准备与数据加载

首先，我们需要导入必要的库。为了展示特征选择的威力，我们最后会使用随机森林分类器来验证效果。但在特征选择阶段，我们主要使用的是线性模型。

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings

# Scikit-Learn 核心模块
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.linear_model import LassoCV
from sklearn.feature_selection import SelectFromModel
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import make_pipeline

# 忽略警告，保持输出整洁（在原型阶段常用）
warnings.filterwarnings(‘ignore‘)

# 设置绘图风格和随机种子，确保结果可复现
sns.set(style="whitegrid")
RANDOM_STATE = 42

接下来，加载数据并进行基础的拆分。记住，特征选择必须只基于训练集，否则会发生数据泄露，导致评估结果过于乐观。

# 1. 加载数据集
data = load_breast_cancer()
X = data.data
y = data.target
feature_names = data.feature_names

print(f"原始数据集特征数量: {X.shape[1]}")

# 2. 划分训练集和测试集
# 我们保留 30% 的数据作为测试集，完全不参与特征选择过程
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=RANDOM_STATE
)

#### 第二步：构建包含标准化的 LassoCV 流水线

这是我们在 2026 年强烈推荐的最佳实践。Lasso 回归对数据的尺度非常敏感。如果一个特征的数值范围是 0 到 1，而另一个是 0 到 10000，Lasso 会倾向于惩罚数值较大的那个特征，仅仅是因为它的数值大，而不是因为它不重要。

为了避免这种偏差，我们必须先将数据标准化（均值为 0，方差为 1）。我们将使用 INLINECODE31232aa6 将 INLINECODE842ebd1d 和 LassoCV 串联起来。

# 3. 构建现代流水线
# Pipeline 确保了 Scaler 是在每一折交叉验证内部进行 fit 的，
# 这是一种非常严谨的数据处理方式，防止了验证集的信息泄露到训练过程中。
lasso_pipeline = make_pipeline(
    StandardScaler(),
    LassoCV(
        cv=5, 
        random_state=RANDOM_STATE, 
        max_iter=10000,  # 增加迭代次数以确保收敛
        n_jobs=-1        # 使用所有CPU核心加速计算
    )
)

# 在训练数据上拟合
lasso_pipeline.fit(X_train, y_train)

# 从流水线中提取训练好的 LassoCV 模型
trained_lasso = lasso_pipeline.named_steps[‘lassocv‘]

# 输出被选中的最佳 alpha 值
print(f"
--- LassoCV 训练完成 ---")
print(f"通过交叉验证选出的最佳 alpha (正则化强度): {trained_lasso.alpha_:.4f}")

提示：在使用 AI 辅助工具（如 GitHub Copilot 或 Cursor）时，你可以这样提示它：

> “请帮我构建一个 Scikit-Learn Pipeline，先进行数据标准化，然后使用 5 折交叉验证的 Lasso 回归来寻找最佳 alpha。”

这种 Vibe Coding（氛围编程） 的方式能让你更专注于逻辑，而少写样板代码。

#### 第三步：利用 SelectFromModel 进行特征筛选

现在 LassoCV 已经训练好了，我们可以看到它为每个特征分配了多少权重。我们将把这些权重传递给 SelectFromModel。

这里我们使用 threshold=‘mean‘。这意味着，只有那些系数绝对值大于所有系数平均值的特征才会被保留。这是一个非常实用的启发式规则。

# 4. 构建 SelectFromModel 选择器
# prefit=True 表示我们传入的是一个已经训练好的模型
# threshold=‘mean‘ 表示阈值设为特征重要性的平均值
selector = SelectFromModel(
    trained_lasso, 
    prefit=True, 
    threshold=‘mean‘
)

# 注意：这里我们传入的是未经标准化的原始训练集，因为 SelectFromModel 只是用来筛选列的
# 但要注意，如果 Lasso 是在标准化数据上训练的，系数的大小是基于标准化后的特征的。
# 这里为了演示简便，我们直接对原始 X 进行 transform
# 在生产代码中，为了逻辑严密性，通常建议将 selector 也放入 Pipeline 中，或者手动处理

# 让我们手动处理一下：
# 因为 Lasso 是在标准化数据上训练的，所以特征系数对应的也是标准化特征。
# 但 SelectFromModel 只是选取列的索引，所以直接 transform 原始数据即可。

X_train_selected = selector.transform(X_train)
X_test_selected = selector.transform(X_test)

# 获取被保留的特征名称和掩码
feature_mask = selector.get_support()
selected_features = feature_names[feature_mask]

print(f"
--- 特征选择结果 ---")
print(f"原始特征数量: {X_train.shape[1]}")
print(f"筛选后特征数量: {X_train_selected.shape[1]}")
print(f"被丢弃的特征数量: {X_train.shape[1]} - {X_train_selected.shape[1]}")
print(f"保留的特征名称: {list(selected_features)}")

#### 第四步：可视化对比（可选但推荐）

为了更直观地理解 Lasso 做了什么，我们可以把所有特征的系数画出来。被选中的特征，其系数的绝对值通常会显著大于那些被归零或变小的特征。

# 可视化系数：看看哪些特征被保留了下来
plt.figure(figsize=(12, 6))
coefficients = pd.Series(trained_lasso.coef_, index=feature_names)

# 我们给柱状图上色：保留的特征为蓝色，丢弃的为灰色
colors = [‘blue‘ if mask else ‘grey‘ for mask in feature_mask]
coefficients.sort_values().plot(kind=‘barh‘, color=colors)

plt.title(f‘Lasso 回归系数 (Alpha={trained_lasso.alpha_:.2f})
蓝色=保留特征, 灰色=丢弃特征‘, fontsize=14)
plt.xlabel(‘系数值 (标准化后)‘, fontsize=12)
plt.axvline(x=0, color=‘.5‘)
plt.tight_layout()
plt.show()

#### 第五步：模型性能验证

我们不仅仅想要减少特征，我们更想知道减少特征后模型是否变“笨”了。为了验证这一点，我们将训练两个随机森林模型：一个使用原始的 30 个特征，另一个使用筛选后的特征。

# 6. 在原始数据和筛选后的数据上分别训练模型
print("
--- 模型性能对比 ---")

# 模型 A：使用所有特征
clf_original = RandomForestClassifier(random_state=RANDOM_STATE, n_estimators=100)
clf_original.fit(X_train, y_train)

# 模型 B：仅使用选中的特征
clf_selected = RandomForestClassifier(random_state=RANDOM_STATE, n_estimators=100)
clf_selected.fit(X_train_selected, y_train)

# 预测
y_pred_orig = clf_original.predict(X_test)

# 注意：这里使用筛选后的测试集
y_pred_sel = clf_selected.predict(X_test_selected) 

# 评估
acc_orig = accuracy_score(y_test, y_pred_orig)
acc_sel = accuracy_score(y_test, y_pred_sel)

print(f"1. 原始数据 ({X_train.shape[1]} 个特征) 的准确率: {acc_orig:.4f}")
print(f"2. 筛选数据 ({X_train_selected.shape[1]} 个特征) 的准确率: {acc_sel:.4f}")

# 打印详细报告
print("
[筛选后数据的详细分类报告]")
print(classification_report(y_test, y_pred_sel))

深入探讨与最佳实践：2026 版

通过上面的实战，你已经掌握了基本流程。但在实际工作中，情况往往更复杂。这里有几个高级技巧和常见陷阱，能让你少走弯路。

#### 1. 阈值策略的艺术

我们在示例中使用了 threshold=‘mean‘，这是一个很好的起点。但在不同的业务场景下，你可能需要调整策略：

‘mean‘ (平均)：适合希望适度减少特征，保留大部分有用信息的场景。
‘median‘ (中位数)：更严格的筛选。如果你的特征很多，且你认为大部分都是噪声，使用中位数能筛选掉更多的特征，只保留精英中的精英。
INLINECODE727b468a：你可以传入一个浮点数倍数。如果你希望模型更简单（例如为了部署到移动端），可以尝试更高的倍数（如 INLINECODE64ad672f），强制模型只保留最核心的特征。

#### 2. 处理高相关性特征

Lasso 倾向于从一组高度相关的特征中随机选择一个，而将其余的系数压缩为 0。这有时是优点（去除了冗余），但有时也是缺点（丢失了可能有用的信息）。

如果你有理由相信某些特定的相关特征组合都很重要，可能需要考虑使用 Elastic Net（L1 和 L2 正则化的组合），或者结合业务知识，在选择前对特征进行聚类分析。

#### 3. 现代开发中的陷阱与规避

常见错误：数据泄露

这是新手最容易犯的错误，甚至在使用 AI 生成代码时也常常出现。请记住：永远先在训练集上进行特征选择，然后再转换测试集。

错误的做法（AI 有时会写出这种代码）：

# 错误：先筛选再拆分
X_new = SelectFromModel(...).fit_transform(X, y) # 使用了全量数据的信息！
X_train, X_test = train_test_split(X_new, ...)

正确的做法（如前文所示）：先 INLINECODE538f64f0，再用 INLINECODE488c0aea，最后 selector.transform(X_test)。这样做是为了模拟真实环境：模型在预测时必须处理从未见过的新数据，不能依赖测试集的统计信息。

技术债务视角

在 2026 年的敏捷开发环境中，我们不仅要写出能跑的代码，还要考虑长期维护。硬编码的特征选择阈值（例如直接写 INLINECODEbebef267）会导致难以维护的技术债务。推荐的做法是将阈值参数化，并将其纳入模型的超参数搜索空间中，或者使用像 INLINECODE538cb5c0 这样的自适应阈值。

总结与展望

通过这篇文章，我们进行了一次从理论到实践的完整旅程。我们了解到，INLINECODE92931041 不仅仅是一个预测模型，它更是一个强大的特征评分器；而 INLINECODE599b75d7 则是将这些评分转化为行动的执行者。

我们并没有满足于仅仅让代码跑通，我们还探讨了数据标准化的重要性，以及如何调整阈值来平衡模型复杂度和性能。这种方法特别适合那些特征维度远高于样本数量的表格数据，或者是你需要构建一个解释性极强的白盒模型的场景。

下一步建议：

既然你已经掌握了基于 Lasso 的特征选择，不妨试试将其与其他方法结合使用。例如，你可以先用 SelectFromModel 剔除 80% 的明显噪声，然后再将其余的特征送入递归特征消除（RFE）或基于树模型的特征选择器中进行精细化筛选。

希望这篇文章能帮助你在接下来的项目中构建出更简洁、高效的模型。Happy Coding!

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客

精通特征选择：如何利用 SelectFromModel 和 LassoCV 在 Scikit-Learn 中优化模型

核心概念解析：为什么 Lasso 和 SelectFromModel 是黄金搭档？

2026 开发范式：打造企业级特征选择流水线

深入探讨与最佳实践：2026 版

总结与展望

相关文章美国1G带宽/1T流量高速vps $17.99/年