深入理解分层随机抽样：原理、实现与最佳实践

2026-02-08 05:06:24 0条评论 74次阅读 0人点赞

作为一名数据科学从业者，我们经常面临这样一个挑战：如何从海量数据中提取出一小部分样本，既能代表整体特征，又能保证模型的训练效率？当数据分布不均衡时，传统的简单随机抽样往往会导致某些关键群体的特征在训练集中“丢失”或“被低估”，这也就是我们常说的样本偏差。

在本文中，我们将深入探讨一种能有效解决这一问题的强大技术——分层随机抽样。我们将一起学习它的工作原理、代码实现，以及在实际项目中如何通过它来提升模型性能。无论你是在处理类别不平衡的分类问题，还是需要确保跨地域调查的准确性，掌握这一技术都将使你的数据分析工作更加如虎添翼。

1 什么是分层随机抽样？
2 核心步骤：如何进行分层随机抽样？
3 分层随机抽样的主要类型
4 分层随机抽样的最佳实践与性能优化
5 什么时候使用分层随机抽样？
6 常见错误与解决方案
7 分层随机抽样 vs. 其他抽样方法
8 总结
9 常见问题解答 (FAQ)

什么是分层随机抽样？

与传统的“简单随机抽样”——即直接从总体中盲目抽取数据点——不同，分层随机抽样更具策略性。它的核心思想在于“先分层，后抽样”。

简单来说，我们首先会根据数据中已有的特定特征或标签，将整个庞大的总体划分为若干个互不重叠的子集，这些子组在统计学上被称为“层”。

> Strata（层）：这是 Stratum 的复数形式。每一个“层”内部的数据成员具有高度的相似性（例如都属于“阳性”类别），而不同“层”之间则具有明显的差异性。

在完成了“层”的划分之后，我们再从每一个“层”中独立地进行随机抽样。通过这种方法，无论总体中某些少数群体的比例多么小，我们都能确保它们在最终的样本集中拥有一席之地。这种方法完美地解决了简单随机抽样可能忽略少数类别的缺陷，从而最大程度地消除了偏差，让我们的机器学习模型能够更公正地学习到所有特征。

核心步骤：如何进行分层随机抽样？

要实施分层随机抽样，我们通常遵循以下两个关键步骤：

形成层：根据特定的特征（如性别、年龄段、目标标签等）对数据进行筛选和分组。这是最关键的一步，要求我们对数据的业务含义有深刻理解。
从层中随机抽样：在每一个子组内部应用随机抽样。需要注意的是，这一步只在子组内部进行，而不受整体容量的直接干扰。

分层随机抽样的主要类型

在实际应用中，我们主要根据抽样比例的不同，将其分为两类。让我们通过具体的代码示例来深入理解它们。

1. 比例分层随机抽样

这是最常用的一种形式。它的原则是“按比例分配”。也就是说，如果某个层占总体的 20%，那么在最终样本中，该层也应占据 20% 的比例。

这种方法的优点是保持了原始数据的分布结构，不会引入额外的权重偏差。

代码示例：使用 Python 进行比例分层抽样

假设我们有一个包含不同年龄段用户的数据集，我们希望抽取一个样本，但保持各年龄段的比例不变。

import pandas as pd
import numpy as np

# 创建一个模拟数据集
# 假设有 1000 名用户，分为三个年龄段：青年(18-25)、中年(26-60)、老年(60+)
np.random.seed(42)
data = {
    ‘user_id‘: range(1, 1001),
    ‘age_group‘: np.random.choice([‘Young‘, ‘Middle‘, ‘Old‘], p=[0.2, 0.5, 0.3], size=1000),
    ‘purchase_amount‘: np.random.randint(100, 1000, size=1000)
}
df = pd.DataFrame(data)

print("原始数据各层分布：")
print(df[‘age_group‘].value_counts(normalize=True))

# 目标：抽取 200 个样本，且保持比例
def proportional_stratified_sample(data, stratify_col, sample_size):
    """
    执行比例分层随机抽样
    :param data: 原始 DataFrame
    :param stratify_col: 用于分层的列名
    :param sample_size: 目标样本总数
    :return: 抽样后的 DataFrame
    """
    # 计算抽样比例
    fraction = sample_size / len(data)
    
    # 使用 groupby 确保每一层都被抽样
    sampled_df = data.groupby(stratify_col, group_keys=False).apply(
        lambda x: x.sample(frac=fraction)
    )
    return sampled_df

# 执行抽样
sample_df = proportional_stratified_sample(df, ‘age_group‘, 200)

print("
抽样后数据各层分布：")
print(sample_df[‘age_group‘].value_counts(normalize=True))

代码解析：

在这个例子中，我们首先定义了数据的分布比例（青年 20%，中年 50%，老年 30%）。在函数中，我们计算了目标样本相对于总体的比例 INLINECODE230a03bf，然后通过 INLINECODEd153947d 遍历每一个层，并应用 frac=fraction 参数。这确保了无论层的大小如何，最终样本都完美复制了原始数据的分布结构。

2. 非比例分层随机抽样

非比例抽样则更加灵活。在某些情况下，某些层虽然数量稀少，但对我们至关重要（例如，在欺诈检测中，“欺诈”用户可能只占 0.1%，但我们非常需要分析他们）。此时，我们会人为地增加少数层在样本中的权重。

什么时候使用它？

提高稀有类别的估计精度：当某个层的数据量太小，直接抽样可能导致该层在样本中几乎不存在时。
重点关注特定群体：比如市场调研中，我们想专门分析大学生群体的反馈，即使他们在总人群中占比不高。

代码示例：过采样少数类

让我们来看看如何通过代码实现非比例抽样，特别是确保所有层级至少达到最小样本量。

def non_proportional_stratified_sample(data, stratify_col, min_samples_per_group):
    """
    执行非比例分层抽样（确保每层至少有 min_samples_per_group 个样本）
    :param data: 原始 DataFrame
    :param stratify_col: 用于分层的列名
    :param min_samples_per_group: 每个层需要的最小样本量
    :return: 抽样后的 DataFrame
    """
    sampled_dfs = []
    
    for group_value in data[stratify_col].unique():
        group_data = data[data[stratify_col] == group_value]
        
        # 如果该层数据量不足，则全取；否则只取指定数量
        if len(group_data) < min_samples_per_group:
            sampled_dfs.append(group_data)
        else:
            sampled_dfs.append(group_data.sample(min_samples_per_group, random_state=42))
            
    return pd.concat(sampled_dfs)

# 场景：我们要分析不同年龄段，但每个年龄段至少需要 100 条记录
balanced_sample_df = non_proportional_stratified_sample(df, 'age_group', 100)

print("非比例抽样后的数量：")
print(balanced_sample_df['age_group'].value_counts())

代码解析：

这里的逻辑发生了变化。我们不再根据总体比例抽取，而是设定了一个 min_samples_per_group。这对于后续的模型训练（如处理类别不平衡）非常有帮助，因为它强制让模型看到足够的少数类样本。

分层随机抽样的最佳实践与性能优化

在工程实践中，仅仅“会写代码”是不够的，我们需要考虑数据的完整性和计算效率。

1. 处理脏数据：空值与极端值

在进行分层之前，必须检查用于分层的列是否存在空值。如果 INLINECODE0c8c6154 列包含 INLINECODEd0a95ee9，大多数标准库函数（如 Scikit-learn）会直接报错。

解决方案：

我们通常有两种选择：要么填充这些空值，要么专门创建一个“未知层”。

# 处理分层列中的空值
df_clean = df.copy()
# 策略：将空值填充为 ‘Unknown‘，使其成为一个独立的层
df_clean[‘region‘] = df[‘region‘].fillna(‘Unknown‘)

2. 使用 Scikit-Learn 进行高效划分

在机器学习流程中，我们通常使用 INLINECODE6dfb7b8e 进行数据集划分。添加 INLINECODE921b7dbe 参数是实现分层抽样的最简单、最高效的方法。

from sklearn.model_selection import train_test_split

# 假设我们要预测目标列 ‘target‘，数据非常不平衡（0: 95%, 1: 5%）
X = df.drop(‘target‘, axis=1)
y = df[‘target‘]

# 使用 stratify 参数，确保训练集和测试集中类别 1 的比例都是 5%
X_train, X_test, y_train, y_test = train_test_split(
    X, y, 
    test_size=0.2, 
    random_state=42, 
    stratify=y  # 关键参数：根据 y 的分布进行分层
)

print("原始数据中的类别分布：")
print(y.value_counts(normalize=True))

print("
训练集中的类别分布（应该与原始分布一致）：")
print(y_train.value_counts(normalize=True))

3. 性能优化建议

当数据量达到数亿级别时，简单的 Pandas groupby 操作可能会消耗大量内存。此时我们可以采取以下策略：

使用 Dask 或 Modin：这些库提供了与 Pandas 兼容的 API，但支持并行处理。
预聚合：如果不需要具体的行，可以先按层进行统计聚合。
避免频繁排序：分层抽样本质上需要分组，尽量避免在抽样前对大数据集进行不必要的排序操作。

什么时候使用分层随机抽样？

让我们总结一下你应该优先考虑分层抽样的场景：

类别不平衡：当你正在处理欺诈检测、罕见疾病诊断等问题时，正样本极少。分层抽样能确保你的模型在训练时确实“看”到了正样本。
总体存在显著子群体：例如你的用户来自不同的国家，且消费习惯差异巨大。简单随机抽样可能会漏掉某些小国家的用户，导致模型泛化能力差。
需要高精度的子群估计：如果你不仅关心整体准确率，还关心模型对特定子群（如老年人）的表现，分层抽样可以提供更稳健的估计。

常见错误与解决方案

错误 1：过度分层

现象：试图根据太多的特征同时进行分层（例如同时按“年龄-性别-地域”分层）。
后果：这会导致某些层的数据组合非常稀疏（例如“20岁-男性-西藏”可能只有1个人），导致抽样无法进行或模型过拟合。
解决：只选择最关键的 1-2 个特征进行分层。

错误 2：忽略数据泄露

现象：在全局范围内进行了数据预处理（如填充均值）之后，再进行分层划分。
后果：测试集的信息实际上泄露到了训练集中。
解决：先划分，再预处理。或者使用 Pipeline 在划分内部进行预处理。

分层随机抽样 vs. 其他抽样方法

为了加深理解，我们可以将其与其他常见方法做一个快速对比：

简单随机抽样：就像在黑暗中抓豆子。虽然公平，但如果豆子大小不一，你可能抓到的都是大的。分层抽样则是看清了豆子大小后，确保每种都抓一点。
系统抽样：比如每隔 10 个人抽一个人。这种方法虽然简单，但如果数据本身有周期性规律（例如数据是按日期排序的），系统抽样会引入巨大的偏差，而分层抽样则能避免这种周期性干扰。

总结

分层随机抽样不仅仅是一个统计学术语，它是每一位严谨的数据科学家手中的武器。通过确保样本能够准确反映总体的结构，我们能够构建出更鲁棒、更公正的机器学习模型。

在这篇文章中，我们探讨了从基本概念到 Python 实现的完整流程，并分享了在实际工程中处理空值和性能优化的经验。正如你所见，只需在代码中添加几行逻辑，或者利用 stratify 参数，就能显著提升项目的数据质量。

你的下一步行动：

打开你手头正在处理的数据集，检查一下标签分布。是否存在严重的类别不平衡？如果有，不妨试着应用一下今天学到的分层抽样技巧，看看模型的效果是否有所改善。

常见问题解答 (FAQ)

Q1: 分层抽样一定会提高模型准确率吗？

A: 不一定。分层抽样的主要目的是减少方差和偏差，确保样本的代表性。如果原始数据本身质量很差（噪声大），或者特征与标签无关，分层抽样无法创造奇迹，但它能确保你对模型表现的评估是更准确的。

Q2: 如果某一层的样本量极少怎么办？

A: 这种情况下，通常使用“过采样”或结合合成数据生成技术（如 SMOTE）来辅助分层抽样，而不是仅仅依赖简单的随机抽取。

Q3: Scikit-learn 的 train_test_split 支持多列分层吗？

A: 默认情况下，INLINECODE85d384d0 参数支持任何类似数组的对象。如果你希望同时根据多列进行分层，你可以先将这些列组合成一个多维数组（虽然这通常不推荐，因为会导致层过于稀疏），或者更实用的做法是创建一个新的组合列（例如将 ‘Age‘ 和 ‘Gender‘ 拼接为 ‘AgeGender‘），然后基于这一新列进行分层。

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客