深入理解有放回与无放回抽样：原理、Python实现及最佳实践

2026-02-10 01:16:42 0条评论 71次阅读 0人点赞

在处理数据分析、机器学习模型训练或是构建模拟系统时，我们经常面临一个基础但至关重要的问题：如何从庞大的数据集中准确地提取子集？这个看似简单的过程——抽样，直接关系到我们分析结果的可靠性和模型预测的准确性。如果我们选取样本的方法不当，可能会导致统计学上的偏差，从而得出错误的结论。

在这篇文章中，我们将深入探讨统计学和计算机科学中最核心的两种抽样策略：有放回抽样和无放回抽样。我们不仅会解释它们背后的数学直觉，还将通过 Python 中的 NumPy 和 Pandas 库展示如何在实战中高效实现它们。无论你是正在准备数据科学面试，还是致力于优化数据处理流水线，这篇文章都将为你提供实用的见解和代码示例。

1 有放回抽样与无放回抽样的核心区别
2 实战指南：使用 NumPy 进行抽样
3 实战指南：使用 Pandas 处理表格数据
4 总结与最佳实践

有放回抽样与无放回抽样的核心区别

在我们深入代码之前，让我们先直观地理解这两个概念。

什么是有放回抽样？

想象你正在抽奖。假设箱子里有 10 个球，分别标有 0 到 9 的数字。有放回抽样的意思是：当你从中抽出一个球（比如是数字“5”），记录下结果后，你必须把这个球再放回箱子里，然后才进行下一次抽取。

这意味着什么？

独立性：每次抽取都是独立的。你第一次抽到“5”这件事，完全不会影响你第二次抽到“5”的概率。

n2. 重复性：在一次抽样过程中，同一个体（如数字“5”）可以出现多次，甚至可以连续出现。

总体不变：理论上，总体的分布和大小在每一次抽取瞬间都不会改变。

这种机制在自助法和随机森林等机器学习算法中起着核心作用，因为它允许我们在同一数据集上创建多个略有不同的训练集，从而评估模型的稳定性。

什么是无放回抽样？

同样使用抽奖的例子。无放回抽样是指：当你抽出一个球（比如数字“5”）后，这个球就离开了箱子，不再参与后续的抽取。

这意味着：

依赖性：每次抽取的概率都会发生变化。因为“5”已经被拿走了，你下一次抽到“5”的概率变成了 0。
唯一性：在一次抽样过程中，同一个体最多只能被选中一次。
总体缩减：随着抽样的进行，待选的总体会变得越来越小。

这通常用于现实世界的调查（如民意测验）或划分数据集（如将数据分为训练集和测试集），因为我们通常希望数据尽可能地多样化，避免重复样本带来的信息冗余。

为了更直观地展示这一过程，请看下面的演示图：

!<a href="https://media.geeksforgeeks.org/wp-content/uploads/20250528002106017848/SamplingwithorwithoutReplacement-660.png">SamplingwithorwithoutReplacement

图示：左边展示了有放回抽样（同一项目可多次出现），右边展示了无放回抽样（每一项都是唯一的）。

—

实战指南：使用 NumPy 进行抽样

NumPy 是 Python 中用于科学计算的基础库，它的 random 模块为我们提供了非常高效的抽样函数。让我们看看如何利用它来实现这两种抽样方式。

1. 使用 NumPy 实现有放回抽样

在 NumPy 中，我们主要使用 INLINECODE1377ae7e 函数。其核心参数 INLINECODEf69e505c 控制着抽样的性质。当我们将 INLINECODEb22432c8 设置为 INLINECODEd7206a03 时，就启用了有放回模式。

#### 基础示例

让我们从 0 到 9 的数字中，随机抽取 10 个数字。

import numpy as np

# 为了结果可复现，我们设置随机种子
np.random.seed(10)

# 从 0-9 中随机抽取 10 个样本
# a=10: 代表从 [0, 1, ..., 9] 中抽取
# size=10: 我们需要获取 10 个样本
# replace=True: 关键参数，允许重复选择（有放回）
sample_with_replacement = np.random.choice(a=10, size=10, replace=True)

print("NumPy 有放回抽样结果:", sample_with_replacement)

输出示例：

NumPy 有放回抽样结果: [9 4 0 1 9 0 1 8 9 0]

代码深度解析：

请注意观察输出结果。数字 INLINECODE1b95aabf 出现了 3 次，数字 INLINECODE447e7c4f 出现了 3 次，而 INLINECODE4ee77fa5, INLINECODEee4cf805, INLINECODEfec7357d, INLINECODE96ac3005 根本没有出现。这就是有放回抽样的典型特征：它模拟了一个事件可能多次发生的独立事件序列。

#### 进阶实战：自定义概率分布

有放回抽样最强大的功能之一是可以指定每个元素被选中的概率。这在处理分类不平衡数据或进行特定场景模拟时非常有用。

假设我们需要模拟一个极其 skewed（不平衡）的点击率场景：

import numpy as np

np.random.seed(42)

# 定义候选项
actions = [‘点击‘, ‘不点击‘, ‘关闭页面‘]

# 定义对应的概率分布（例如：点击率很低，不点击很高）
# 注意：概率之和必须为 1
probabilities = [0.1, 0.85, 0.05]

# 进行 10 次模拟
samples = np.random.choice(
    a=actions, 
    size=10, 
    replace=True, 
    p=probabilities  # 这里传入概率列表
)

print("模拟用户行为序列:", samples)

输出示例：

模拟用户行为序列: [‘不点击‘ ‘不点击‘ ‘点击‘ ‘不点击‘ ‘不点击‘ ‘不点击‘ ‘不点击‘ ‘不点击‘ ‘不点击‘ ‘不点击‘]

见解： 通过这种方式，我们可以轻松生成用于训练贝叶斯模型或测试推荐算法的合成数据，而无需依赖复杂的真实数据集。

2. 使用 NumPy 实现无放回抽样

当我们需要从总体中获取唯一的子集时，只需将 INLINECODE41756abb 参数设置为 INLINECODE485e9265。这在创建验证集或进行随机实验分组时非常常见。

import numpy as np

np.random.seed(20)

# 从 0-9 中随机抽取 6 个**唯一**样本
# replace=False: 禁止重复选择，一旦某数字被选中，它将被从候选池中移除
unique_sample = np.random.choice(a=10, size=6, replace=False)

print("NumPy 无放回抽样结果:", unique_sample)

输出示例：

NumPy 无放回抽样结果: [7 1 8 5 0 2]

常见错误与解决方案：

如果你尝试无放回地抽取比总体更多的样本，例如从 10 个数字中抽取 11 个，NumPy 会抛出 ValueError。

try:
    # 尝试从 10 个数字中抽取 11 个不重复的数字
    error_sample = np.random.choice(a=10, size=11, replace=False)
except ValueError as e:
    print(f"捕获错误: {e}")

错误提示： Cannot take a larger sample than population when ‘replace=False‘
最佳实践： 在编写健壮的代码时，建议在抽样前检查样本量 INLINECODE436f26a2 是否超过总体大小 INLINECODE29a679e8，以避免程序崩溃。

—

实战指南：使用 Pandas 处理表格数据

在现实世界中，我们处理的数据往往是以 DataFrame 的形式存在的。Pandas 提供了 DataFrame.sample() 方法，它继承了 NumPy 的随机能力，并增加了对轴和权重的支持。

1. 使用 Pandas 进行有放回抽样

有放回抽样在 Pandas 中非常有用，比如在生成自助法数据集用于模型评估时。在自助法中，我们通常会创建一个与原始数据集大小相同的新数据集，但允许有重复行。

让我们构建一个包含员工信息的虚拟数据集：

import pandas as pd
import numpy as np

# 模拟数据：创建一个包含 ID、年龄、薪资和部门的 DataFrame
raw_data = {
    ‘ID‘: [101, 102, 103, 104, 105, 106],
    ‘Age‘: [23, 31, 45, 22, 35, 29],
    ‘Salary‘: [50000, 62000, 80000, 45000, 70000, 58000],
    ‘Department‘: [‘HR‘, ‘IT‘, ‘Finance‘, ‘HR‘, ‘IT‘, ‘Finance‘]
}
df = pd.DataFrame(raw_data)

print("原始数据集:")
print(df)

现在，让我们执行一次有放回抽样。我们将抽取 6 行（与原始数据集行数相同），但因为是有放回，有些行会出现，有些行会消失。

# random_state 保证每次运行代码得到相同的结果，便于调试
# n=6: 抽取 6 行
# replace=True: 允许同一行被多次选中
bootstrap_sample = df.sample(n=6, replace=True, random_state=5)

print("
有放回抽样结果:")
print(bootstrap_sample)

输出示例：

    ID  Age  Salary Department
3  104   22   45000         HR
5  106   29   58000    Finance
0  101   23   50000         HR
1  102   31   62000         IT
0  101   23   50000         HR   <-- 注意：ID 101 出现了两次
1  102   31   62000         IT   <-- 注意：ID 102 出现了两次

实战分析：

请注意观察结果。ID 为 INLINECODE78e96809 和 INLINECODEae853ac5 的员工被选中了两次，而 ID INLINECODE78508684 和 INLINECODEf5332d32 甚至可能没有出现。这模拟了我们从一个较大的总体中多次观测到同一个个体的过程，这对于计算如标准误差等统计量至关重要。

2. 使用 Pandas 进行无放回抽样

这是最常用的抽样形式，通常用于快速数据探索或划分测试集。比如我们想从数据库中随机抽取 5 名用户进行回访调查。

# 从 6 行数据中随机抽取 5 行，且不重复
# replace=False: 确保每一行最多出现一次
unique_sample_df = df.sample(n=5, replace=False, random_state=15)

print("无放回抽样结果:")
print(unique_sample_df)

输出示例：

    ID  Age  Salary Department
3  104   22   45000         HR
2  103   45   80000    Finance
5  106   29   58000    Finance
0  101   23   50000         HR
4  105   35   70000         IT

在这个结果中，所有的 ID 都是唯一的。如果我们将 n 设置为 6，它将简单地打乱原始数据的顺序。

性能优化与大数据处理

当处理海量数据（例如数百万行）时，抽样可能会消耗内存。Pandas 的 sample 方法非常高效，因为它使用了优化算法。

参数 frac 的妙用：

除了指定具体的行数 INLINECODE142d5744，我们还可以使用 INLINECODE7b4c4877 参数来指定比例。

# 抽取原始数据 50% 的行，无放回
subset_half = df.sample(frac=0.5, replace=False, random_state=42)
print("
抽取 50% 的数据:")
print(subset_half)

优化建议： 如果在进行随机森林训练时需要生成大量的自助样本，建议使用 NumPy 生成索引数组，然后再用 INLINECODEa66454c3 索引 DataFrame，这比直接使用 Pandas 的 INLINECODE8e99066e 循环调用要快得多。

# 高性能索引生成示例
indices = np.random.choice(len(df), size=len(df), replace=True)
fast_bootstrap = df.iloc[indices]

—

总结与最佳实践

我们刚刚探讨了统计学中两个最基础的概念：有放回抽样和无放回抽样。虽然它们在代码实现上只是一个参数的区别，但在应用场景上有着明确的界限。

关键区别总结

特性

有放回抽样 (INLINECODEb8be83bb)

无放回抽样 (INLINECODE63b7dc58) :—

:—

:— 独立性

事件之间相互独立

事件之间相互依赖 (条件概率变化) 样本内容

可包含重复元素

所有元素必须唯一 样本量限制

可以大于总体大小

不能超过总体大小 典型应用

自助法、随机森林、蒙特卡洛模拟

训练/测试集划分、问卷调查、抽样调查

何时使用哪种方法？

选择无放回抽样，如果：

* 你需要从大数据集中创建一个独特的、具有代表性的子集（例如，将 80% 的数据作为训练集）。

* 你的数据是关于唯一实体的（例如用户ID），重复出现会破坏分析逻辑。

* 你在进行线下的 A/B 测试样本分配。

选择有放回抽样，如果：

* 你正在实现集成学习算法（如 Bagging 或 Random Forest），需要利用重采样来估计模型的方差。

* 你在进行蒙特卡洛模拟，需要模拟可能重复发生的独立事件（如模拟掷硬币 1000 次）。

* 你的总体很小，但你需要生成大量的样本数据。

给开发者的建议

在未来的项目中，当你面对 INLINECODE668e691b 或 INLINECODEb36c8d3b 时，请务必停下来思考一下：我的数据采集过程是“有放回”的还是“无放回”的？确保你的训练数据模拟了真实世界的采样机制，这对于构建泛化能力强的机器学习模型至关重要。

希望这篇文章不仅能帮助你理解代码，更能帮助你建立起对数据流动的直觉。如果你有任何关于数据处理的问题，欢迎随时交流探讨！

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客

深入理解有放回与无放回抽样：原理、Python实现及最佳实践

有放回抽样与无放回抽样的核心区别

什么是有放回抽样？

什么是无放回抽样？

实战指南：使用 NumPy 进行抽样

1. 使用 NumPy 实现有放回抽样

2. 使用 NumPy 实现无放回抽样

实战指南：使用 Pandas 处理表格数据

1. 使用 Pandas 进行有放回抽样

2. 使用 Pandas 进行无放回抽样

性能优化与大数据处理

总结与最佳实践

关键区别总结

何时使用哪种方法？

给开发者的建议

相关文章美国1G带宽/1T流量高速vps $17.99/年