机器学习实战指南：如何有效处理类别不平衡问题

2026-02-06 01:10:28 0条评论 3次阅读 0人点赞

在机器学习的实际项目开发中，你是否遇到过这样一种令人头疼的情况：当你满怀信心地训练好一个分类模型，测试准确率却高达 95% 以上，但将其应用到实际业务中时，却彻底无法捕捉那些真正关键但发生的概率极低的事件？这通常是“类别不平衡”在作祟。在这篇文章中，我们将深入探讨这一棘手问题，不仅会分析它为何会误导我们的模型，更重要的是，我们将一起通过实战代码，掌握包括重采样、SMOTE 以及算法层面的多种解决方案，让你的模型不再只看“多数”而忽视“少数”。

1 什么是类别不平衡？
2 为什么不平衡数据是个大问题？
3 核心解决方案：重采样技术
4 进阶策略：算法层面的优化
5 综合案例：选择最佳策略
6 结语

什么是类别不平衡？

简单来说，当我们处理的数据集在不同类别中的样本数量比例严重失调时，就面临着类别不平衡的问题。这通常出现在分类任务中。比如，在欺诈检测中，欺诈交易可能只占总交易量的 0.1%；或者在某些罕见疾病的诊断中，患病样本的数量远远少于健康样本。

虽然许多机器学习算法在各类别样本数量大致相等时表现最佳，但在现实世界中，不平衡的数据分布才是常态。这就给我们带来了巨大的挑战。

为什么不平衡数据是个大问题？

准确率的陷阱

模型训练在不平衡数据集上变得非常具有挑战性，因为传统的“准确率”指标在这一场景下已不再是衡量模型性能的可靠标准。如果少数类的数据点数量非常少，模型在训练过程中很可能会选择“偷懒”——它为了优化整体损失函数，往往会倾向于忽略少数类，而将所有样本都预测为多数类。

模型的偏见

在这种情况下，如果模型主要预测多数类，它可能会显示出极高的准确率。例如，如果 99% 的数据属于多数类，一个仅仅是“一直预测为多数类”的笨模型也能达到 99% 的准确率。这种高准确率具有极大的欺骗性。遗憾的是，这种方法往往会完全忽略少数类，而这通常恰恰是我们构建模型时主要关注的对象（例如，癌症筛查中的阳性样本）。

像逻辑回归或决策树这样的经典算法，如果不加调整，可能会难以识别并准确预测来自少数类的情况，导致模型在实际应用中毫无价值。

核心解决方案：重采样技术

为了解决这一问题，重采样是我们最常使用的武器。它的核心思想是通过修改训练集的样本分布，使其变得更加平衡。主要分为两种策略：

过采样： 增加少数类样本的数量。
欠采样： 减少多数类样本的数量。

虽然这些策略可以平衡类别，但它们各有优缺点。让我们逐一探讨，并看看如何在 Python 中实现它们。

方法一：随机欠采样

原理：当我们的数据集非常庞大（例如数百万行数据）时，通过随机消除多数类中的观测值，直到多数类和少数类达到平衡，是一种高效的方法。这就是欠采样。
优缺点：

优点：训练速度快，计算成本低，适合处理大数据集。
缺点：简单地删除样本可能会导致信息丢失。如果被删除的数据中包含对分类至关重要的边缘信息，模型的效果会下降。

#### Python 实战示例：随机欠采样

让我们来看看如何使用 INLINECODE0d307f2c 的 INLINECODEd45edc97 工具来实现欠采样。

import pandas as pd
from sklearn.datasets import make_classification
from sklearn.utils import resample

# 1. 生成模拟数据集
# 假设我们要处理一个二分类问题，比例约为 80:20（即 4:1 的不平衡）
X, y = make_classification(
    n_classes=2, 
    weights=[0.8, 0.2], # 80% 多数类，20% 少数类
    n_features=4, 
    n_samples=1000,      # 生成 1000 个样本
    random_state=42
)

# 将数据转换为 Pandas DataFrame 以便操作
df = pd.DataFrame(X, columns=[‘feature_1‘, ‘feature_2‘, ‘feature_3‘, ‘feature_4‘])
df[‘target‘] = y

print(f"原始数据集类别分布:
{df[‘target‘].value_counts()}
")

# 2. 分离多数类和少数类
df_majority = df[df[‘target‘] == 0] # 多数类 (0)
df_minority = df[df[‘target‘] == 1] # 少数类 (1)

# 3. 对多数类进行欠采样
# 我们将多数类样本数量减少到与少数类相同
# replace=False 表示不放回采样（即删除数据）
# n_samples 是我们想要保留的数量，这里取少数类的长度
df_majority_undersampled = resample(
    df_majority, 
    replace=False,    
    n_samples=len(df_minority), 
    random_state=42
)

# 4. 合并平衡后的数据集
df_balanced = pd.concat([df_majority_undersampled, df_minority])

print(f"欠采样后数据集类别分布:
{df_balanced[‘target‘].value_counts()}")

代码解析：

在上述代码中，我们首先创建了一个不平衡的数据集。关键步骤在于 INLINECODE61b78283 函数，通过设置 INLINECODEd49df081，我们确保了是从多数类中随机抽取样本而不重复，从而达到减少多数类数量的目的。最后，我们将剩余的多数类与原有的少数类拼接起来，得到了一个完美的平衡数据集。

—

方法二：随机过采样

原理：与欠采样相反，过采样旨在增加少数类样本的数量。最基本的方法是简单地复制少数类中的随机记录，使其数量与多数类相当。
优缺点：

优点：保留了所有多数类的信息，不会丢失数据。
缺点：由于是简单复制，这会导致模型学习到非常具体的重复样本，极易引发过拟合。模型可能会记住这些特定的样本点，而不是学习到通用的特征模式。

#### Python 实战示例：随机过采样

import pandas as pd
from sklearn.datasets import make_classification
from sklearn.utils import resample

# 1. 生成模拟数据集
X, y = make_classification(
    n_classes=2, 
    weights=[0.9, 0.1], # 90% 多数类，10% 少数类
    n_features=4, 
    n_samples=1000, 
    random_state=42
)

df = pd.DataFrame(X, columns=[‘f1‘, ‘f2‘, ‘f3‘, ‘f4‘])
df[‘label‘] = y

# 分离类别
df_major = df[df[‘label‘] == 0]
df_minor = df[df[‘label‘] == 1]

# 2. 对少数类进行上采样
# replace=True 表示有放回采样（即允许复制同一样本）
# n_samples 设定为多数类的数量，以此达到平衡
df_minor_upsampled = resample(
    df_minor, 
    replace=True,     # 允许重复复制
    n_samples=len(df_major), # 目标数量
    random_state=42
)

# 3. 合并数据
df_upsampled = pd.concat([df_major, df_minor_upsampled])

print(f"过采样后类别数量:
{df_upsampled[‘label‘].value_counts()}")

注意：虽然代码运行后类别平衡了，但如果你检查数据，会发现少数类的数据行是重复的。这就是为什么我们通常需要更高级的技术——SMOTE。

—

方法三：SMOTE (合成少数类过采样技术)

为了克服简单随机过采样导致的过拟合问题，我们可以使用 SMOTE (Synthetic Minority Over-sampling Technique)。

原理：SMOTE 不是简单地复制样本，而是基于算法合成新的样本。它的工作原理是：在特征空间中，选取一个少数类样本及其最近邻的几个少数类样本，在这些样本之间的连线上随机选取一个点作为新的合成样本。
优势：这为模型提供了更多变体，有助于决策边界更加平滑和通用。

#### Python 实战示例：使用 SMOTE

我们需要使用 INLINECODE72319d65 库（通常缩写为 INLINECODEc00887eb），这是处理不平衡数据的强大工具。你可以通过 pip install imbalanced-learn 来安装它。

import pandas as pd
from sklearn.datasets import make_classification
from imblearn.over_sampling import SMOTE

# 1. 准备严重不平衡的数据
X, y = make_classification(
    n_classes=2, 
    weights=[0.95, 0.05], # 极度不平衡 95:5
    n_features=5, 
    n_samples=1000, 
    random_state=42
)

print(f"原始数据中的正样本(1)数量: {sum(y == 1)}")

# 2. 初始化 SMOTE
# sampling_strategy=‘auto‘ 表示自动重采样所有类别直到数量相等
# random_state 保证结果可复现
smote = SMOTE(sampling_strategy=‘auto‘, random_state=42)

# 3. 拟合数据并进行重采样
X_resampled, y_resampled = smote.fit_resample(X, y)

print(f"SMOTE 处理后正样本(1)数量: {sum(y_resampled == 1)}")
print(f"SMOTE 处理后负样本(0)数量: {sum(y_resampled == 0)}")

实战见解：SMOTE 在高维数据中效果非常好，但也需要注意噪音。如果数据本身就存在大量重叠或噪音，SMOTE 可能会合成出一些模糊不清的样本，反而干扰模型训练。在这种情况下，清理数据或结合使用欠采样（如 Tomek Links）通常会有更好的效果。

—

进阶策略：算法层面的优化

除了数据层面的重采样，我们还可以从模型本身入手，告诉模型“请多关注那些少数类”。

使用类别权重

许多机器学习算法（如逻辑回归、随机森林、XGBoost 等）都允许我们为不同的类别分配不同的权重。我们可以赋予少数类更高的权重，使得模型在误分类少数类样本时会受到更重的“惩罚”。

#### Python 实战示例：在逻辑回归中使用类别权重

from sklearn.datasets import make_classification
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

# 生成数据
X, y = make_classification(n_classes=2, weights=[0.9, 0.1], n_samples=1000, random_state=42)

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 场景 1：不使用权重（普通模型）
print("--- 普通模型 (未使用权重) ---")
model_plain = LogisticRegression()
model_plain.fit(X_train, y_train)
pred_plain = model_plain.predict(X_test)
print(classification_report(y_test, pred_plain))

# 场景 2：使用 class_weight=‘balanced‘
# ‘balanced‘ 模式会自动根据类别频率调整权重，与样本数量成反比
print("
--- 加权模型 ---")
model_weighted = LogisticRegression(class_weight=‘balanced‘)
model_weighted.fit(X_train, y_train)
pred_weighted = model_weighted.predict(X_test)
print(classification_report(y_test, pred_weighted))

结果分析：当你运行这段代码时，你会发现“普通模型”可能对少数类（Class 1）的 Recall（召回率）非常低，甚至为 0。而“加权模型”虽然整体准确率可能略有下降，但它成功捕捉到了更多的少数类样本。这正是我们在处理欺诈检测或疾病诊断时所期望的效果。

—

综合案例：选择最佳策略

你可能会问：“我到底该用欠采样、过采样还是 SMOTE？还是调整权重？”

这取决于你的具体场景：

数据量巨大（数十万/百万级）：首选欠采样。因为数据量大，丢弃部分样本通常不会损失太多信息，且能显著加快训练速度。
数据量较小（几千级）：首选过采样或 SMOTE。因为欠采样会导致数据太少，模型无法学到有效信息。
模型是树模型（如 XGBoost, LightGBM）：通常优先调整 INLINECODEe47e174c 或 INLINECODE19e25514 参数，这往往比重采样更有效且计算开销更小。
模型对数据噪音敏感（如 KNN, 神经网络）：推荐使用 SMOTE 的变体（如 Borderline-SMOTE）或结合数据清洗方法。

最佳实践提示

只在训练集上重采样：这是一个常见的错误。你必须先划分训练集和测试集，然后只对训练集进行重采样。如果你在划分前就重采样，导致测试集的信息“泄露”到了训练集中（尤其是 SMOTE 合成的样本是基于原始分布的），这会导致你的评估指标过于乐观，但在实际部署时却一塌糊涂。
不要只看 Accuracy：对于不平衡数据，请务必关注 F1-Score、Precision（精确率） 和 Recall（召回率）。建议绘制混淆矩阵来直观地看到模型是否真正捕捉到了少数类。
交叉验证的重要性：在使用重采样技术时，最好使用交叉验证来确保模型的稳定性。

结语

处理类别不平衡数据是机器学习工程师必须掌握的技能。通过随机采样、SMOTE 以及调整类别权重，我们有能力纠正模型对多数类的偏见，使其更加公平和实用。虽然准确率可能会因为平衡而降低，但我们捕捉关键事件的能力将得到显著提升。

希望这些技巧能帮助你在下一个项目中解决这一难题。如果你在实践中遇到了其他问题，不妨多尝试几种方法的组合，看看哪种最适合你的数据。

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客