SMOTE 处理类别不平衡：从 Python 实战到 2026 年工程化最佳实践

2026-02-01 19:54:57 0条评论 2次阅读 0人点赞

当我们在处理真实的机器学习数据集时，经常会遇到一个令人头疼的问题：类别不平衡。想象一下，如果你正在构建一个信用卡欺诈检测系统，在 10,000 笔交易中，可能只有 10 笔是欺诈交易。这种情况下，如果你直接训练模型，它可能会因为总是预测“无欺诈”而达到 99.9% 的准确率，但实际上它一次欺诈都没抓到。这就是我们常说的“准确率陷阱”。

为了解决这个问题，我们不应该只盯着算法调整，还应该从数据层面入手。在这篇文章中，我们将深入探讨一种名为 SMOTE（合成少数类过采样技术） 的强大方法。我们将不仅了解它的工作原理，还会通过实际的 Python 代码，一步步教你如何运用它及其高级变体（如 ADASYN 和 Borderline SMOTE）来显著提升模型的性能。更重要的是，我们将站在 2026 年的工程化视角，探讨在 Agentic AI 时代，如何将这些技术融入到现代化的、可观测的生产级 AI 工作流中。

1 什么是 SMOTE？为什么我们需要它？
2 SMOTE 的工作原理：深入底层逻辑
3 实战演练：使用 Python 解决糖尿病数据不平衡
4 进阶应用：SMOTE 的变体及其适用场景
5 2026 工程化视角：从脚本到生产级系统
6 替代方案与未来展望
7 结语

什么是 SMOTE？为什么我们需要它？

在传统的解决方案中，我们可能会尝试复制少数类的样本（比如把那 10 个欺诈样本复制 1000 次），这在统计学上称为“简单过采样”。但这会导致一个非常严重的副作用——过拟合。模型就像是死记硬背了这些训练样本，一旦遇到稍微不同的新数据，它就会束手无策。

SMOTE（合成少数类过采样技术） 的出现改变了这一局面。与简单的复制不同，SMOTE 通过“合成”新样本来增加少数类的数量。它基于这样一个直观的假设：特征空间中，两个同类样本之间的线段上的点，很可能也属于该类。

核心优势

创新而非复制：它创建的是全新的合成数据，而不是仅仅克隆现有数据，这极大地降低了模型记忆特定噪声的风险。
提升决策边界：通过填补少数类样本之间的空白，SMOTE 帮助模型绘制出更准确的分类边界，从而显著提高对少数类的识别能力。
生态丰富：在 Python 中，我们可以利用 imbalanced-learn 库轻松实现 SMOTE 及其多种强大的变体。

SMOTE 的工作原理：深入底层逻辑

在开始写代码之前，让我们先拆解一下 SMOTE 背后的算法逻辑。理解这个过程对于我们在实际项目中正确调参至关重要。

算法步骤解析

识别与定位：首先，算法会扫描数据集，锁定那些数量较少的“少数类”样本。
寻找邻居：对于每一个少数类样本（我们称之为“源点”），SMOTE 会在特征空间中计算距离，找到距离它最近的 $k$ 个同类邻居（通常默认 $k=5$）。这里的距离通常是欧氏距离。
插值生成：这是最关键的一步。算法从这 $k$ 个邻居中随机选取一个，并在源点和这个邻居之间的连线上，随机选取一个点。这个新点就是我们的合成样本。

数学直觉：假设源点是 $A$，邻居是 $B$。新样本 $C$ 的计算逻辑大致是：$C = A + \lambda \times (B – A)$，其中 $\lambda$ 是一个 0 到 1 之间的随机数。这保证了新样本既在特征空间的合理范围内，又具有了一定的随机性。

迭代平衡：重复上述过程，直到少数类的数量达到我们预设的比例，或者与多数类持平。

这种方法的精妙之处在于，它利用了现有的特征空间结构，通过线性插值扩展了少数类的分布区域，使决策边界变得更加平滑和泛化。

实战演练：使用 Python 解决糖尿病数据不平衡

好了，理论说得再多，不如动手实践。让我们以一个经典的糖尿病数据集为例，看看如何使用 Python 的 imbalanced-learn 库来应用 SMOTE。

第一步：环境准备与数据加载

首先，我们需要确保安装了必要的库。如果你还没有安装，可以通过 pip install imbalanced-learn pandas matplotlib scikit-learn 来安装。

接下来，我们加载数据并可视化当前的不平衡状态。

import matplotlib.pyplot as plt
import pandas as pd
from imblearn.over_sampling import SMOTE
from collections import Counter

# 1. 加载数据
# 假设我们有一个名为 ‘diabetes.csv‘ 的文件
# 这里我们使用 pandas 读取数据
try:
    data = pd.read_csv(‘diabetes.csv‘)
except FileNotFoundError:
    # 为了演示方便，如果读者没有文件，我们创建一个模拟数据
    # 在实际生产环境中，我们通常从数据库或云存储直接读取
    from sklearn.datasets import make_classification
    X_syn, y_syn = make_classification(n_samples=1000, n_features=8, 
                                       n_informative=5, n_redundant=2, 
                                       n_classes=2, weights=[0.9, 0.1], 
                                       random_state=42)
    data = pd.DataFrame(X_syn, columns=[f‘feature_{i}‘ for i in range(8)])
    data[‘Outcome‘] = y_syn

# 2. 拆分特征 (X) 和标签
X = data.drop("Outcome", axis=1)
y = data["Outcome"]

# 3. 可视化原始分布
# 让我们先看看数据的原始面貌
plt.figure(figsize=(10, 5))
count_class = y.value_counts()
plt.bar(count_class.index, count_class.values, color=[‘skyblue‘, ‘salmon‘])
plt.xlabel(‘类别‘)
plt.ylabel(‘样本数量‘)
plt.title(‘SMOTE 处理前的类别分布‘)
plt.xticks(count_class.index, [‘非糖尿病 (Class 0)‘, ‘糖尿病 (Class 1)‘])

# 在柱状图上显示具体数值
for i, v in enumerate(count_class.values):
    plt.text(i, v + 10, str(v), ha=‘center‘, fontweight=‘bold‘)

plt.show()

# 打印原始类别计数
print(f"原始数据类别分布: {Counter(y)}")

你会看到：在处理之前，INLINECODEef082329（非糖尿病）的样本量可能远多于 INLINECODE68568880（糖尿病）。这种不平衡会导致模型忽视 Class 1。

第二步：应用 SMOTE 进行重采样

现在，让我们用 SMOTE 来平衡这个天平。我们将使用 INLINECODE3054994f 库中的 INLINECODE588fdc03 类。

# 4. 初始化 SMOTE
# sampling_strategy=‘minority‘ 表示只对少数类进行过采样
# 也可以指定为 float (如 0.5 表示少数类变成多数类的50%) 或 ‘auto‘ (完全平衡)
smote = SMOTE(sampling_strategy=‘minority‘, random_state=42)

# 5. 拟合数据并进行重采样
# 注意：我们只对训练集进行 SMOTE，测试集必须保持原样，这一点在实际项目中至关重要！
# 在这一步演示中，我们先在整个数据集上展示效果，但在模型训练章节会修正为正确的Pipeline流程
X_res, y_res = smote.fit_resample(X, y)

# 6. 查看结果
print(f"SMOTE 处理后的类别分布: {Counter(y_res)}")

# 可视化处理后的分布
plt.figure(figsize=(10, 5))
count_class_res = y_res.value_counts()
plt.bar(count_class_res.index, count_class_res.values, color=[‘skyblue‘, ‘salmon‘])
plt.xlabel(‘类别‘)
plt.ylabel(‘样本数量‘)
plt.title(‘SMOTE 处理后的类别分布‘)
plt.xticks(count_class_res.index, [‘非糖尿病 (Class 0)‘, ‘糖尿病 (Class 1)‘])
for i, v in enumerate(count_class_res.values):
    plt.text(i, v + 10, str(v), ha=‘center‘, fontweight=‘bold‘)
plt.show()

代码深度解析：

samplingstrategy：这是一个非常关键的参数。设置为 INLINECODEb8c728d8 时，它会自动计算需要多少样本才能让两类数量相等。你也可以设置一个浮点数，例如 0.5，意味着少数类样本数量将变为多数类的 50%。
random_state：设置这个参数是为了保证实验的可复现性。SMOTE 涉及随机选择邻居，固定的随机种子能确保每次运行结果一致。

通过上述代码，你会发现原本较少的 Class 1 样本数量增加了，现在的图表显示两个柱子高度基本一致。这意味着模型现在有了足够的“患病案例”来进行学习。

进阶应用：SMOTE 的变体及其适用场景

虽然标准的 SMOTE 很强大，但在处理复杂的数据分布时，它并不是万能的。有时候，生成的样本可能会引入噪声，或者出现在多数类的区域内（这被称为“类重叠”）。为了解决这些问题，我们可以使用以下几种高级变体。

1. ADASYN：自适应合成采样

场景：当你想要模型更加关注那些“难以学习”的样本时。

ADASYN（Adaptive Synthetic Sampling）是 SMOTE 的改进版。它的核心理念是：根据学习的难易程度动态调整采样密度。

区别：标准的 SMOTE 对所有少数类样本一视同仁，不管它们是处在安全区域还是边界区域。而 ADASYN 会计算每个少数类样本周围有多少多数类样本（即“难度”）。如果一个少数类样本周围有很多多数类样本（说明它处于分类边界，容易被误分类），ADASYN 就会为它生成更多的合成样本。
优点：这种自适应策略迫使分类器将注意力集中在最困难的区域，从而优化决策边界。

from imblearn.over_sampling import ADASYN

# 初始化 ADASYN
# ADASYN 会自动根据样本密度分布生成数据
adasyn = ADASYN(sampling_strategy=‘minority‘, random_state=42)

X_res_adasyn, y_res_adasyn = adasyn.fit_resample(X, y)

print(f"ADASYN 处理后的类别分布: {Counter(y_res_adasyn)}")

# 注意：ADASYN 生成的分布通常不是完全平衡的（例如 1:1），
# 而是会在边界附近生成更多样本，这取决于数据的原始分布。

2. Borderline-SMOTE：关注边界样本

场景：当你的数据集存在明显的类间重叠，或者标准 SMOTE 生成的样本质量不高时。

标准 SMOTE 有一个弱点：它可能会对处于安全区域（周围都是同类样本）的少数类样本也进行合成，这并没有太大帮助。Borderline-SMOTE 则聪明得多，它只筛选出处于“边界”上的少数类样本来进行过采样。

逻辑：只有那些周围多数类样本较多的少数类样本（即处于危险边缘的样本）才会被选中生成新数据。这直接增强了分类器在最需要的地方——即决策边界——的分辨能力。

from imblearn.over_sampling import BorderlineSMOTE

# kind=‘borderline-1‘ 是最常用的版本
# 它仅在边界处生成样本
bl_smote = BorderlineSMOTE(kind=‘borderline-1‘, random_state=42)

X_res_bl, y_res_bl = bl_smote.fit_resample(X, y)

print(f"Borderline-SMOTE 处理后的类别分布: {Counter(y_res_bl)}")

2026 工程化视角：从脚本到生产级系统

在我们最近的一个大型风控系统重构项目中，我们发现仅仅掌握上述算法原理是远远不够的。随着 AI Native 应用架构的兴起，以及 Agentic AI（自主智能体） 开始辅助甚至接管部分数据处理任务，我们需要用更现代的工程思维来审视 SMOTE。

1. 避免数据泄漏的黄金法则

这是新手最容易犯的错误，也是我们在代码审查中最常发现的“地雷”。千万不要在整个数据集上先做 SMOTE，然后再划分训练集和测试集。

为什么？ 如果你这样做，测试集的信息（通过合成样本）就“泄漏”到了训练过程中。模型在测试集上的表现将虚高，不能反映其在真实未知数据上的表现。这在 2026 年的实时机器学习系统中是致命的，因为你会误以为模型表现良好，从而导致上线后的资损。
正确做法：始终遵循 INLINECODE72d988e5 的流程。先划分数据，只在训练集上 INLINECODE23783805，让测试集保持原始的、不平衡的状态来评估模型泛化能力。更进一步的，我们建议使用 Pipeline 将这一步骤自动化。

2. 结合 Pipeline 的现代验证流程

如果你使用交叉验证，必须确保 SMOTE 只发生在训练折叠内部。INLINECODE03f6186f 的 INLINECODE06559f5a 可以完美地解决这个问题。结合现代 Vibe Coding（氛围编程） 的理念，我们可以利用 AI 辅助工具（如 Cursor 或 GitHub Copilot）快速生成健壮的 Pipeline 代码，而不是手动拼接每一块逻辑。

from imblearn.pipeline import Pipeline  # 注意是 imblearn 的 pipeline
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split

# 划分数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建一个包含过采样和模型的管道
# 这种做法符合 DevSecOps 中的“安全左移”原则，确保数据处理的纯净性
model = RandomForestClassifier(random_state=42)
pipeline = Pipeline([
    (‘smote‘, SMOTE(random_state=42)), 
    (‘classifier‘, model)
])

# 这样在交叉验证的每一折中，SMOTE 都只会在该折的训练部分进行
# 防止了任何形式的数据泄漏
scores = cross_val_score(pipeline, X_train, y_train, cv=5, scoring=‘f1‘)
print(f"交叉验证 F1 分数: {scores}")

# 训练最终模型
pipeline.fit(X_train, y_train)

3. 生产环境中的深度优化与监控

在 2026 年的云原生环境下，数据规模往往是 PB 级别的。标准的 SMOTE 算法基于 KNN（K-近邻），计算复杂度为 $O(N^2)$，在大数据量下会成为性能瓶颈。

我们的优化策略：

混合采样：不要盲目追求 1:1 的平衡。如果多数类有 100 万条，少数类有 1 万条，完全平衡会导致训练集爆炸式增长。我们可以尝试 1:2 或 1:3 的比例，或者结合 EasyEnsemble（集成学习+欠采样）。
分布式计算：当数据量超过单机内存时，我们使用 Dask-ML 或 Ray 的分布式版本。我们可以仅对特征空间进行降维后进行 SMOTE，或者只对边界区域的样本进行局部采样。
可观测性：在生产环境中，我们不仅要监控模型的 AUC 和 F1，还要监控 数据分布漂移。如果欺诈交易的特征空间发生了变化（例如出现了新的欺诈手段），旧的 SMOTE 生成的样本可能不再适用。我们需要引入 KS 检验来监控训练数据与实时数据的分布差异。

替代方案与未来展望

虽然 SMOTE 经典且强大，但在 2026 年的技术栈中，我们有了更多选择。例如，生成式对抗网络（GAN） 和 扩散模型 已经可以用来合成更逼真的少数类数据，而不仅仅是线性插值。此外，Focal Loss 等损失函数的改进，使得我们在不改变数据分布的情况下，也能让模型极度关注那些难分类的样本。

结语

类别不平衡是机器学习中不可忽视的挑战。通过这篇文章，我们不仅了解了 SMOTE 的基本原理，还深入探讨了它的实现细节以及 ADASYN 和 Borderline-SMOTE 等进阶技术。

记住这几个关键点：

不要盲目过采样：始终注意防止数据泄漏，先分割数据再采样。
关注边界：在复杂场景下，尝试使用 Borderline-SMOTE 往往能比标准 SMOTE 带来更好的效果。
评估指标：在处理不平衡数据时，不要只看准确率，多关注 F1-Score、召回率和 AUC 值。
工程化思维：利用 Pipeline 和现代 AI 开发工具（如 Cursor, Copilot）来构建可维护、可复现的数据处理流程。

希望这篇文章能帮助你更好地解决手中的不平衡数据问题。下次当你面对那个“一边倒”的数据集时，不妨试试 SMOTE，让模型重新找回平衡！

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客