R语言实战：三种高效方法将数据集划分为训练集与测试集

2026-02-17 11:37:18 0条评论 52次阅读 0人点赞

在数据科学和机器学习的实战项目中，无论我们构建的是预测模型还是分类算法，最关键的第一步往往不是选择算法，而是数据的准备。你是否想过，为什么不能直接把所有数据都丢给模型去训练？如果我们这样做了，模型可能只是简单地“死记硬背”了数据，而在面对新的、未见过的数据时就会束手无策。这就是我们常说的“过拟合”问题。

为了解决这个问题，我们需要将手中的数据集划分为两部分：训练集和测试集。顾名思义，训练集用于教模型认识数据模式，而测试集则像是一场“期末考试”，用来评估模型在未知数据上的表现。今天，我们将深入探讨在 R 语言中实现这一操作的几种不同方法，从基础操作到高效的数据处理技巧，带你领略 R 语言在数据预处理方面的灵活性。

1 为什么数据划分如此重要？
2 方法 1：使用 Base R 进行基础划分
3 方法 2：使用 dplyr 包进行管道式操作
4 方法 3：使用 caTools 包（最常用的工业界标准）
5 综合对比与最佳实践总结

为什么数据划分如此重要？

在正式开始写代码之前，我们要明确一个核心概念：泛化能力。一个好的模型不仅仅是能准确预测训练集中的数据，更重要的是它能准确预测未来的数据。通过预留一部分数据作为测试集，我们可以在不参与模型训练的过程中，客观地验证模型的性能。通常，我们会采用 70:30 或 80:20 的比例来进行划分，当然这也取决于数据的总量。

方法 1：使用 Base R 进行基础划分

如果你是 R 语言的初学者，或者不想依赖任何第三方包，那么 Base R 提供的 sample() 函数就完全足够应付日常需求了。这种方法不仅透明，而且能帮助你理解数据索引和随机采样的底层逻辑。

理解 sample() 函数

sample() 函数的核心功能是从一个数据集中随机抽取元素。它的语法非常直观：

sample(vec, size, replace = FALSE, prob = NULL)

vec: 你的数据来源，可以是向量、矩阵甚至是一个数字序列。
size: 你想抽取多少个元素。
INLINECODE70eecaa6: 这是一个逻辑开关。INLINECODEe0637f6e 表示“有放回抽样”（抽完放回去，可能再次抽到），FALSE 表示“无放回抽样”（抽完就拿走）。在划分数据集时，我们通常使用无放回抽样，但为了生成索引向量，Base R 中有一种技巧性的用法。
prob: 可选参数，允许你设置每个元素被抽中的概率。

实战演练：矩阵数据的划分

让我们通过一个具体的例子来看看如何操作。假设我们有一个 $7 \times 3$ 的矩阵，代表我们要处理的数据集。

# 步骤 1：创建模拟数据集
# 我们创建一个 7行3列 的矩阵，填充 1 到 21 的数值
mat <- matrix(
  c(1:21), 
  nrow = 7,  
  ncol = 3, 
  byrow = TRUE # 按行填充
)

print("--- 原始数据集 ---")
print(mat)

# 步骤 2：生成逻辑索引向量
# 这里的技巧在于利用 sample() 生成 TRUE/FALSE 序列
# 我们希望在每一行上有 70% 的概率被分到训练集 (TRUE)
# 设定 replace = TRUE 是因为我们需要为每一行生成一个独立的随机标签
sample_indices <- sample(
  c(TRUE, FALSE), 
  nrow(mat),        # 抽样次数等于行数
  replace = TRUE,   # 允许重复抽取 TRUE/FALSE
  prob = c(0.7, 0.3) # 设定权重：70% TRUE, 30% FALSE
)

# 步骤 3：根据索引划分数据
# 使用索引为 TRUE 的行作为训练集
train_dataset <- mat[sample_indices, ]

# 使用取反 (!sample_indices) 的行作为测试集
# 这就保证了训练集和测试集没有交集
test_dataset <- mat[!sample_indices, ]

print("--- 训练集 ---")
print(train_dataset)
print("--- 测试集 ---")
print(test_dataset)

深入理解与潜在陷阱

在上面的代码中，INLINECODE4fc266bd 看起来似乎违背了“无放回”的原则，但实际上这里是在生成索引向量，而不是直接抽取数据行。如果数据量很小，使用 INLINECODE516cf9cf 配合概率可能会导致每次生成的训练集和测试集的比例波动较大（比如有时可能是 80:20，有时是 60:40）。

最佳实践建议： 对于更严谨的控制，我们可以不依赖概率，而是直接指定具体的行数。例如，如果想保证绝对的 70% 训练集，可以这样做：

# 更严谨的 Base R 划分方法
set.seed(123) # 设置随机种子，保证结果可复现（非常重要！）
data_size <- nrow(mat)
train_size <- floor(0.7 * data_size) # 计算训练集行数

# 随机打乱行索引
train_indices <- sample(1:data_size, size = train_size)

train_dataset_strict <- mat[train_indices, ]
test_dataset_strict <- mat[-train_indices, ] # 负号表示排除这些行

这种方法在处理严格的科学实验时更为可靠。

方法 2：使用 dplyr 包进行管道式操作

如果你习惯使用 Tidyverse 生态进行数据分析，那么 INLINECODEb45ba8c8 包提供的 INLINECODEaa81d1fa 和 anti_join 将是你的得力助手。这种方法代码可读性极高，非常适合融入现代数据科学的工作流。

首先，请确保你已经安装并加载了该包：

install.packages("dplyr")
library(dplyr)

核心函数解析

sample_frac(tbl, size, replace = FALSE): 这个函数用于随机抽取数据框中一定比例的行。这非常适合我们要按百分比（如 70%）划分数据的场景。
INLINECODE5b7d5d0a: 这是一个非常强大的过滤函数，它返回 INLINECODE9efb53de 中那些不在 y 中的行。这简直就是划分测试集的“神器”——只要把所有不在训练集里的数据挑出来，就是测试集。

实战演练：数据框的优雅划分

让我们构建一个更接近现实的数据框，包含 ID、分类标签和数值。

# 加载必要的库
library(dplyr)

# 创建一个包含分类变量的数据框
df <- data.frame(
  id = 1:15,
  category = letters[1:15],
  value = c(0,1,1,1,0,0,0,0, 0,1,1,0,1,1,0)
)

print("--- 原始完整数据框 ---")
print(df)

# 步骤 1：利用管道操作符直接划分训练集
# sample_frac(0.7) 会随机抽取 70% 的行
# 这里我们显式调用 dplyr::sample_frac 是为了防止命名冲突
training_dataset % 
  dplyr::sample_frac(0.7) # 注意：这里没有设置种子，每次运行结果不同

print("--- 训练集 (70% 数据) ---")
print(training_dataset)

# 步骤 2：利用 anti_join 生成测试集
# 这会从原始 df 中剔除 training_dataset 中已经存在的行（基于 id 匹配）
testing_dataset <- dplyr::anti_join(
  df, 
  training_dataset, 
  by = 'id' # 必须指定唯一标识符进行匹配
)

print("--- 测试集 (剩余 30% 数据) ---")
print(testing_dataset)

dplyr 方法的优势与注意事项

使用 INLINECODE81454565 的最大优势在于代码的简洁性和可读性。我们不需要手动计算索引，也不需要写复杂的括号嵌套。然而，这里有一个非常重要的细节：INLINECODE3cfe50cb 参数。

在使用 INLINECODE3f61cbe0 时，必须确保 INLINECODEe73219dd 参数指定的列（通常是 ID）是唯一的。如果数据集中有重复的 ID，anti_join 可能会意外删除过多的行。如果你的数据没有唯一 ID，建议在划分前先创建一个临时行名或索引列。

方法 3：使用 caTools 包（最常用的工业界标准）

在处理监督学习任务时，特别是当你需要确保划分结果具有可重复性时，INLINECODE50bdbe60 包中的 INLINECODE88e9a9f8 函数是许多 R 语言爱好者的首选。与前两种方法不同，sample.split 专门设计用于将数据划分为训练集和测试集。

首先安装并加载：

install.packages("caTools")
library(caTools)

sample.split() 详解

这个函数接收一个向量（通常是因变量 $Y$）和一个划分比例（INLINECODEedeb55c6）。它会返回一个逻辑向量，其中 INLINECODEfdee6c58 代表该行属于训练集，FALSE 代表属于测试集。这种基于逻辑向量的筛选方法非常 R 风格，效率很高。

语法: sample.split(vec, SplitRatio = 2/3)
参数:

* vec: 通常是数据集中的目标变量列。使用目标变量进行切分可以顺便检查一下数据分布。

* SplitRatio: 训练集的比例。

实战演练：分类数据的划分

让我们处理一个经典的二分类数据集场景。

library(caTools)

# 构建模拟数据
data_set <- data.frame(
  age = c(25, 30, 45, 35, 50, 23, 40, 60, 28, 33),
  purchased = c(0, 1, 1, 0, 1, 0, 1, 1, 0, 0) # 0=未购买, 1=已购买
)

print("--- 原始数据 ---")
print(data_set)

# 步骤 1：设置随机种子
# 这是机器学习实验中的金科玉律，确保每次代码运行切分出的数据集一致
set.seed(123)

# 步骤 2：生成切分逻辑向量
# 注意：我们通常使用因变量来进行切分
split_result <- sample.split(
  data_set$purchased, 
  SplitRatio = 0.7 # 70% 训练，30% 测试
)

# 查看一下切分向量的样子
print("--- 逻辑切分向量 ---")
print(split_result)

# 步骤 3：应用切分
# subset 函数根据逻辑条件筛选行
training_set <- subset(data_set, split_result == TRUE)
testing_set <- subset(data_set, split_result == FALSE)

print("--- 训练集 ---")
print(training_set)
print("--- 测试集 ---")
print(testing_set)

高级技巧：分层抽样

INLINECODE51532c3d 的一个潜在优势在于，当你将分类变量（如上面的 INLINECODE63f23c64）传递给 sample.split 时，它会尝试在训练集和测试集中保持该类别的原始比例。这在处理类别不平衡数据时至关重要。

例如，如果原始数据中只有 10% 的用户购买了产品，单纯的随机抽样可能会导致测试集里偶尔碰巧全是“未购买”的样本，这会导致模型评估失效。而 sample.split 会自动处理这种分层，确保子集中也大致有 10% 的“已购买”样本。

综合对比与最佳实践总结

我们刚刚探讨了三种不同的方法，你可能会问：“我在实际项目中到底该用哪一个？”

方法选择指南

Base R: 适合快速原型开发，不需要安装任何包。理解它能帮你掌握 R 的索引机制。但手动管理索引容易出错，特别是在处理复杂的子集逻辑时。
dplyr: 如果你已经在使用 Tidyverse 进行数据清洗，这是最佳选择。代码整洁，易于阅读和维护。但要注意处理唯一键的问题。
caTools: 适合标准的机器学习工作流。它简单明了，专门为了“切分”这个任务设计，且天然支持分层抽样逻辑，是处理分类问题的稳妥选择。

关键要点：不要忘记 set.seed()

无论你选择哪种方法，请记住最重要的一步：set.seed()。

如果不设置种子，每次运行代码，你都会得到不同的训练集和测试集。这意味着你的模型准确率会忽高忽低，你将无法复现你的结果，也无法判断模型参数的调整是否真的有效。在代码的第一行设置一个种子（如 set.seed(123)），是专业数据分析师的基本素养。

下一步建议

现在你已经掌握了如何划分数据，接下来的步骤就是对这些子集进行预处理（Feature Scaling），比如归一化或标准化。请注意，归一化的参数（如最大值、最小值或均值、标准差）必须只基于训练集计算，然后再应用到测试集上，以防止数据泄露。

希望这篇文章能帮助你更自信地处理 R 语言中的数据划分问题。动手运行一下这些代码，观察每次输出的变化，你会发现数据预处理其实充满了乐趣。祝你的建模之旅顺利！

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客