如何使用 Python 将数据集划分为训练集和测试集：从原理到实战

2026-02-08 00:33:57 0条评论 1次阅读 0人点赞

在构建机器学习模型时，我们面临的一个最基础但也最关键的问题就是：如何确保我们训练出的模型不仅仅是“死记硬背”了训练数据，而是真正具备了泛化能力？为了回答这个问题，我们需要将手中的数据集划分为两部分：训练集和测试集。今天，站在2026年的技术视角，我们将深入探讨如何在 Python 中高效地完成这一任务，从最流行的库函数到底层的手动实现，再到最新的 AI 辅助开发工作流，我们都会一一涵盖。

1 为什么我们需要划分数据集？
2 方法一：使用 Scikit-Learn 的 train_test_split
3 方法二：手动划分
4 方法三：使用 NumPy 进行划分
5 2026 进阶视野：现代 AI 开发工作流中的数据划分
6 常见误区与解决方案（基于实战经验）
7 划分比例的选择指南
8 总结与展望

为什么我们需要划分数据集？

想象一下，如果你在备考考试时，老师直接把答案连同题目一起给了你，你可能只记住了答案而没有理解背后的逻辑。当你真正走上考场遇到新题时，就会不知所措。机器学习模型也是如此。

划分数据集的核心目的在于：模拟“ unseen data ”（未见数据）的场景。

训练集：这是教材和习题集，模型通过这部分数据学习特征和规律。
测试集：这是期末考试，这部分数据在训练阶段对模型是保密的，仅用于评估学得好不好。

划分带来的具体好处

检测过拟合：如果模型在训练集上表现完美（100%准确率），但在测试集上表现糟糕，说明发生了过拟合。划分数据能让我们及时发现这一点。
真实性能评估：我们需要一个客观的标准来衡量模型部署到生产环境后的表现。测试集提供了这个“无偏”的估计。
模型选择：当我们开发了多个模型（比如逻辑回归 vs. 随机森林）时，只有通过在同一个独立的测试集上对比，才能公平地选出谁更胜一筹。

方法一：使用 Scikit-Learn 的 `train_test_split`

这是目前 Python 数据科学社区中最标准、最常用的方法。INLINECODE5cee52e3 库为我们提供了一个非常便捷的函数 INLINECODEb98c9d19，它封装了洗牌、切分和索引处理等所有繁琐的细节。

基础用法示例

让我们从一个实际的例子开始。假设我们有一个经典的鸢尾花数据集。

import numpy as np
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

# 1. 加载示例数据
# 在实际工作中，X可能是你的特征矩阵，y是目标标签
data = load_iris()
X = data.data
y = data.target

print(f"原始数据集总样本数: {X.shape[0]}")

# 2. 使用 train_test_split 进行划分
# test_size=0.2 表示 20% 的数据用于测试，80% 用于训练
# random_state=42 是一个随机种子，确保每次运行代码得到的结果一致，方便复现实验
X_train, X_test, y_train, y_test = train_test_split(
    X, 
    y, 
    test_size=0.2, 
    random_state=42
)

# 3. 查看划分后的形状
print(f"训练集特征形状: {X_train.shape}")
print(f"测试集特征形状: {X_test.shape}")

输出结果：

原始数据集总样本数: 150
训练集特征形状: (120, 4)
测试集特征形状: (30, 4)

在这段代码中，我们看到了 INLINECODEb055d4c1 的重要性。作为经验之谈，在开发阶段务必固定 INLINECODE18075a43。如果你不设置它，每次运行脚本切分出来的数据都不一样，这将导致你无法复现之前的 Bug 或性能波动。

结合模型训练的完整流程

仅仅切分数据是不够的，让我们看看它在完整的机器学习管道中是如何工作的。我们将使用一个简单的逻辑回归模型来演示。

from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler

# 数据标准化（这是一个很好的预处理习惯，但不影响划分逻辑）
scaler = StandardScaler()
# 注意：我们要先划分，再 fit scaler，以防止数据泄露！
# 这里为了简化演示，我们直接训练
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# 初始化模型
model = LogisticRegression(random_state=42)

# 在训练集上学习
model.fit(X_train_scaled, y_train)

# 在测试集上评估
accuracy = model.score(X_test_scaled, y_test)

print(f"模型在测试集上的准确率: {accuracy:.2f}")

输出结果：

模型在测试集上的准确率: 1.00

进阶参数：分层抽样

你可能遇到过这种情况：你的数据是不平衡的。例如，在欺诈检测数据集中，99% 是正常交易，只有 1% 是欺诈。如果我们随机切分，很有可能测试集里完全没有欺诈样本，这会导致评估结果失效。

这时，我们需要使用 stratify 参数。

# 假设我们有一个不平衡的数据集
# 让我们构建一个简单的例子
X_imb = np.random.rand(100, 5)
y_imb = [0] * 95 + [1] * 5  # 95个0，5个1

# 使用 stratify=y_imb，确保训练集和测试集中正负样本的比例一致
X_train_s, X_test_s, y_train_s, y_test_s = train_test_split(
    X_imb, 
    y_imb, 
    test_size=0.3, 
    random_state=42, 
    stratify=y_imb # 关键参数
)

print("原始数据类别分布：", np.bincount(y_imb) / len(y_imb))
print("训练集类别分布：", np.bincount(y_train_s) / len(y_train_s))
print("测试集类别分布：", np.bincount(y_test_s) / len(y_test_s))

通过 stratify，我们可以保证切分后的数据依然保持着 5% 的欺诈率，这对于模型的公平评估至关重要。

方法二：手动划分

虽然 train_test_split 非常方便，但作为一名进阶开发者，你需要理解这背后的逻辑。有时候，你可能正在处理不能直接使用 Scikit-Learn 的环境，或者你需要实现极其复杂的自定义切分逻辑（比如基于时间序列的特定切分）。这时候，手动划分就派上用场了。

手动划分的核心在于：打乱索引 和切片。

使用 Pandas 进行手动划分

如果你正在处理 DataFrame，Pandas 提供了非常直观的方法。

import pandas as pd
import numpy as np

# 创建一个模拟 DataFrame
df = pd.DataFrame({
    ‘Feature1‘: np.random.rand(200),
    ‘Feature2‘: np.random.rand(200),
    ‘Target‘: np.random.randint(0, 2, 200)
})

# 步骤 1: 打乱数据
# frac=1 表示重置所有行，random_state 保证可复现
df_shuffled = df.sample(frac=1, random_state=42).reset_index(drop=True)

# 步骤 2: 计算分割点
# 如果我们要 80% 训练，20% 测试
split_ratio = 0.8
split_index = int(len(df_shuffled) * split_ratio)

# 步骤 3: 切分
train_df = df_shuffled.iloc[:split_index]
test_df = df_shuffled.iloc[split_index:]

print(f"手动划分结果 -> 训练集大小: {len(train_df)}, 测试集大小: {len(test_df)}")

输出结果：

手动划分结果 -> 训练集大小: 160, 测试集大小: 40

为什么我们要手动重置索引？

注意代码中的 .reset_index(drop=True)。在机器学习流程中，如果你切分了数据但没有重置索引，当你尝试合并预测结果或进行某些对齐操作时，可能会因为索引混乱（例如测试集的索引是从 160 开始的）而导致报错或数据错位。这是很多初学者容易踩的坑。

方法三：使用 NumPy 进行划分

如果你的数据是纯 NumPy 数组，而不是 Pandas DataFrame，我们可以利用 NumPy 强强的切片功能。这在处理高性能计算或图像数据时非常常见。

import numpy as np

# 创建一个模拟的数值数据集
# 假设有 100 个样本，每个样本有 10 个特征
data_matrix = np.random.rand(100, 10)
labels = np.random.randint(0, 2, 100)

# 设定随机种子以确保可复现性
np.random.seed(42)

# 生成随机索引并进行打乱
indices = np.arange(data_matrix.shape[0])
np.random.shuffle(indices)

# 根据打乱后的索引重新排列数据
data_shuffled = data_matrix[indices]
labels_shuffled = labels[indices]

# 计算分割点
split = int(0.8 * data_matrix.shape[0])

# 利用 NumPy 切片进行划分
X_train_np = data_shuffled[:split]
X_test_np = data_shuffled[split:]
y_train_np = labels_shuffled[:split]
y_test_np = labels_shuffled[split:]

print(f"NumPy 划分 -> X_train: {X_train_np.shape}, X_test: {X_test_np.shape}")

这种方法非常轻量级，不依赖任何第三方重型库，适合嵌入到你的核心算法代码中。

2026 进阶视野：现代 AI 开发工作流中的数据划分

作为一名紧跟技术潮流的开发者，我们不仅要会写代码，还要懂得利用 2026 年的先进工具来提升效率。现在的开发范式正在从“单纯的编码”转向“AI 辅助的协作编程”（Vibe Coding）。

利用 AI IDE 进行自动化验证

在使用 Cursor 或 Windsurf 等现代 AI IDE 时，我们不仅要让 AI 帮我们写 train_test_split，更要让它生成验证逻辑。我们可以这样向 AI 提问：“请帮我编写一个测试用例，验证我划分后的测试集中类别分布是否与原始数据集一致，如果差异超过 5% 则报警。”

这不仅是一个简单的脚本，它体现了我们在可观测性方面的重视。在大型系统中，数据的任何微小偏斜都可能导致模型崩溃。

处理超大规模数据集的工程化策略

当我们面对 TB 级别的数据时，一次性加载进内存进行划分已经不再现实。我们需要引入更激进的策略：

流式采样：不使用 shuffle=True，而是在数据读取流中随机抽取样本进入测试集。例如，每个样本有 20% 的概率被写入测试文件，80% 写入训练文件。这样只需要遍历一次数据。
基于 ID 的哈希切分：对每个样本的唯一 ID（如用户 ID）计算哈希值。

    # 工程化哈希切分示例
    import hashlib

    def hash_split(user_id, test_ratio=0.2):
        # 将 ID 映射到 0-1 之间
        hash_val = int(hashlib.md5(str(user_id).encode(‘utf-8‘)).hexdigest(), 16)
        return (hash_val % 100) / 100.0 < test_ratio
    
    # 这种方法确保了同一个用户的数据永远不会跨越训练集和测试集，
    # 防止了在推荐系统中常见的数据泄露问题。

这种“用户级切分”是我们在实际生产环境中防止“窥探未来”的标准做法。

常见误区与解决方案（基于实战经验）

在实际工作中，我们总结了一些大家最容易犯的错误，你可以对照检查一下自己的代码。

1. 数据泄露

这是最致命的错误。如果你在划分数据集之前，对整个数据集进行了标准化（如归一化）或填补了缺失值，你就犯了数据泄露的错误。

错误做法：

    # 错误：利用了全局信息的统计量
    scaler = StandardScaler()
    X_scaled = scaler.fit_transform(X) # 测试集的信息泄露了！
    X_train, X_test = train_test_split(X_scaled, ...)

这是因为测试集的信息（均值和方差）泄露到了训练集中，导致模型评估虚高。

正确做法：

    # 正确：先划分，再 fit
    X_train, X_test, _, _ = train_test_split(X, y, ...)
    scaler = StandardScaler()
    X_train_scaled = scaler.fit_transform(X_train) 
    X_test_scaled = scaler.transform(X_test) # 仅使用训练集的参数

2. 忽视时间序列的因果关系

如果你的数据带有时间戳（例如股票价格、销售数据），绝对不能使用简单的随机洗牌！这是我们在构建预测系统时必须遵守的铁律。

# 时间序列的正确切分方式
# 假设 df 已经按时间排序
split_point = int(len(df) * 0.8)

train_df = df.iloc[:split_point]
test_df = df.iloc[split_point:] # 必须使用未来的数据做测试

# 永远不要在时间序列上使用 shuffle=True！

3. 遗忘 `random_state` 导致的调试噩梦

在调试模型时，如果你的准确率忽高忽低，请首先检查你是否设置了 random_state。消除随机性是定位 Bug 的第一步。在我们的团队规范中，所有实验代码如果不设置随机种子，是不允许合并到主分支的。

划分比例的选择指南

你应该切多少数据出来做测试？这并没有标准答案，但根据数据集的规模，业界有一些不成文的最佳实践。

数据集规模 (样本数)

推荐训练/测试比例

理由 :—

:—

:— 小型 (100 – 1,000)

70:30 或 60:40

数据较少，我们需要较多的测试数据来获得统计学意义上的可靠评估。 中型 (1,000 – 100,000)

80:20

这是最常用的比例。20% 的测试集通常足够包含各类边界情况。 大型 (100,000 – 百万级)

90:10 或 95:05

当数据量极大时，即便 1% 的数据作为测试集，其绝对数量也足以代表整体分布。 超大规模 (大数据)

99:1

对于数百万条数据，维护一个巨大的测试集非常昂贵，此时保留 1% 甚至进行采样测试都是合理的。

总结与展望

在这篇文章中，我们不仅回顾了 Python 中划分数据集的基础方法，更深入探讨了 2026 年开发环境下的工程化实践。

默认使用 train_test_split：它是标准做法，鲁棒且包含了很多边界情况的处理。
始终设定 random_state：为了实验的可复现性，这是必须的。
关注不平衡数据：别忘了 stratify 参数，它能让你的评估结果更真实。
防止数据泄露：切分要在所有预处理步骤（除了简单的清洗）之前完成。
拥抱 AI 辅助开发：利用 Cursor、Copilot 等工具快速生成验证代码，让 AI 成为你严谨的“结对编程伙伴”。

通过掌握这些技巧，你已经为构建高质量的机器学习模型打下了最坚实的基础。下一次当你拿到一个新的数据集时，希望你能像经验丰富的专家一样，自信地迈出这第一步。

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客

如何使用 Python 将数据集划分为训练集和测试集：从原理到实战

为什么我们需要划分数据集？

划分带来的具体好处

方法一：使用 Scikit-Learn 的 `train_test_split`

基础用法示例

结合模型训练的完整流程

进阶参数：分层抽样

方法二：手动划分

使用 Pandas 进行手动划分

为什么我们要手动重置索引？

方法三：使用 NumPy 进行划分

2026 进阶视野：现代 AI 开发工作流中的数据划分

利用 AI IDE 进行自动化验证

处理超大规模数据集的工程化策略

常见误区与解决方案（基于实战经验）

1. 数据泄露

2. 忽视时间序列的因果关系

3. 遗忘 `random_state` 导致的调试噩梦

划分比例的选择指南

总结与展望

相关文章美国1G带宽/1T流量高速vps $17.99/年

如何使用 Python 将数据集划分为训练集和测试集：从原理到实战

为什么我们需要划分数据集？

划分带来的具体好处

方法一：使用 Scikit-Learn 的 train_test_split

基础用法示例

结合模型训练的完整流程

进阶参数：分层抽样

方法二：手动划分

使用 Pandas 进行手动划分

为什么我们要手动重置索引？

方法三：使用 NumPy 进行划分

2026 进阶视野：现代 AI 开发工作流中的数据划分

利用 AI IDE 进行自动化验证

处理超大规模数据集的工程化策略

常见误区与解决方案（基于实战经验）

1. 数据泄露

2. 忽视时间序列的因果关系

3. 遗忘 random_state 导致的调试噩梦

划分比例的选择指南

总结与展望

相关文章美国1G带宽/1T流量高速vps $17.99/年

方法一：使用 Scikit-Learn 的 `train_test_split`

3. 遗忘 `random_state` 导致的调试噩梦