在 R 语言 dplyr 中按名称排除列： mutate_at 与 across 的完全指南

2026-02-07 16:10:11 0条评论 33次阅读 0人点赞

在 R 语言的数据科学之旅中，dplyr 包无疑是我们手中最强大的武器之一。无论是数据清洗还是特征工程，它都极大地提高了我们的工作效率。你是否曾经遇到过这样的情况：你想要对数据框中的大部分列应用某个函数，但偏偏要保留其中的几列不变？或者，你是否厌倦了在代码中写出一长串列名，心里想着“除了这几个，其他的都要”？

在今天的文章中，我们将深入探讨一个虽然看似微小，却能极大提升代码优雅度和可维护性的技巧：如何在 dplyr 的变量操作中按名称排除特定的列。我们将从经典的 INLINECODE81dc5774 出发，逐步过渡到现代的 INLINECODE3bd48341 函数，不仅教你“怎么做”，更要让你理解背后的逻辑，帮助你在实际工作中写出更专业、更高效的 R 代码。

1 为什么我们需要“排除列”？
2 核心概念：vars() 与负号索引
3 方法一：使用 mutate_at 排除单列
4 方法二：使用 mutate_at 排除多列
5 进阶技巧：结合辅助函数使用
6 现代 dplyr 的推荐方式：使用 across() 函数
7 常见错误与故障排除
8 总结与最佳实践

为什么我们需要“排除列”？

在处理真实世界的数据集时，数据框往往包含数十甚至上百个变量。假设我们有一个包含 50 个变量的销售数据集，其中 48 个是数值型的销售指标，另外 2 个是“客户 ID”和“日期”这样的分类或时间变量。如果我们想对所有销售指标进行标准化处理（例如计算 Z-score 或对数转换），手动列出这 48 个列名不仅繁琐，而且容易出错。

这时，“排除逻辑”就变得至关重要。与其告诉 R “请处理列 A, 列 B, … 直到列 Z”，不如直接说“处理除了 ID 和日期之外的所有列”。这种思维方式的转变，是迈向高效 R 编程的关键一步。

核心概念：vars() 与负号索引

在 dplyr 的选择逻辑中，INLINECODE07c2b570 函数配合 INLINECODE9db232d3（负号）运算符是实现按名称排除列的核心。

mutate_at 的基本原理

首先，让我们简要回顾一下 mutate_at 的工作机制。它允许我们指定一个目标变量列表，然后对这些变量应用一个或多个函数。其基本语法结构通常如下：

mutate_at(.tbl, .vars, .funs, ...)

.tbl: 我们的数据框。
INLINECODEeb6a4528: 我们想要操作的目标列（通常用 INLINECODEa6dfd640 包裹）。
.funs: 我们想要应用的函数。

当我们想要排除某些列时，关键的操作发生在 INLINECODE5b171fac 参数中。通过在列名前加上 INLINECODE14bd7829，我们实际上是在告诉 dplyr：“从选择集中移除这些列”。

让我们开始编码：基础示例

为了演示这些功能，首先让我们创建一个简单的示例数据集。这样，你可以一边阅读，一边在 RStudio 中跟着我们一起运行代码。

# 加载 dplyr 包
library(dplyr)

# 创建一个示例 tibble
# 包含 4 列：A, B, C, D
data <- tibble(
  A = 1:5,
  B = 6:10,
  C = 11:15,
  D = 16:20
)

# 查看原始数据
print("原始数据：")
data

输出：

# A tibble: 5 × 4
      A     B     C     D
     
1     1     6    11    16
2     2     7    12    17
3     3     8    13    18
4     4     9    14    19
5     5    10    15    20

方法一：使用 mutate_at 排除单列

假设我们的需求是：将除 C 列之外的所有列的值乘以 2。也就是说，A、B 和 D 需要变化，而 C 保持原样。

这是 INLINECODEd73a6928 和 INLINECODE17a96b58 组合大显身手的时候。

# 使用 mutate_at 排除列 C
# vars(-C) 意味着“选择除了 C 以外的所有列”
result_1 %
  mutate_at(vars(-C), ~ . * 2)

print("排除列 C 并乘以 2 后的结果：")
result_1

代码解析：

INLINECODEef5b09f7：这里的 INLINECODEb8f56fbc 是排除操作。如果我们写 INLINECODE5d646459，那是选择；而 INLINECODE5234902e 则是反向选择。
INLINECODEa12efaac：这是一个匿名函数（公式语法）。INLINECODEeb764280 代表被选中的列本身。这里的意思是“将当前列的每个值乘以 2”。

输出：

# A tibble: 5 × 4
      A     B     C     D
     
1     2    12    11    32
2     4    14    12    34
3     6    16    13    36
4     8    18    14    38
5    10    20    15    40

仔细观察输出，你会发现 A、B 和 D 的值都翻倍了，而 C 列（11, 12…）完全保持不变。这正是我们想要的效果。

方法二：使用 mutate_at 排除多列

在实际工作中，我们往往需要保留多个列不变。例如，ID 列和日期列通常不参与数学运算。那么，如何在 vars() 中排除多个列呢？

方法非常简单，只需要用逗号分隔每一个带有 - 前缀的列名即可。

场景： 我们只想修改列 A 和 C，而排除 B 和 D。这意味着我们需要“排除 B 和 D”，对剩下的列（即 A 和 C）进行操作。

# 排除列 B 和 D
# 注意：vars(-B, -D) 表示“移除 B，然后移除 D”
result_2 %
  mutate_at(vars(-B, -D), ~ . * 2)

print("排除列 B 和 D 后的结果：")
result_2

输出：

# A tibble: 5 × 4
      A     B     C     D
     
1     2     6    22    16
2     4     7    24    17
3     6     8    26    18
4     8     9    28    19
5    10    10    30    20

在这个结果中，B 和 D 保持了原始值，而 A 和 C 被翻倍了。这种写法非常直观，就像我们在说话一样：“不要 B，也不要 D”。

进阶技巧：结合辅助函数使用

除了直接指定列名，我们还可以结合 INLINECODE4f541e43、INLINECODE7d1d3458 等辅助函数来使用排除逻辑。这在处理列名具有规律性的数据集时非常有用。

让我们扩展一下数据集，使其看起来更接近真实情况：

# 创建一个更复杂的数据集
complex_data <- tibble(
  ID = 1:5,                   # 标识符
  Status = c("A", "B", "A", "A", "B"), # 分类变量
  Val_1 = runif(5),           # 数值列 1
  Val_2 = runif(5),           # 数值列 2
  Info_Extra = letters[1:5]   # 其他信息
)

print("复杂数据集：")
complex_data

场景 1：排除特定类型的列

假设我们想对所有以 "Val" 开头的列进行操作，但要排除 ID 列。虽然直接用 starts_with("Val") 就能做到，但在逻辑上，我们可以理解为“选中所有列，排除 ID 和 Status”。

# 逻辑：选择所有列，但移除 ID 和 Status，剩下的就是数值列
# 对剩下的数值列取对数
result_complex %
  mutate_at(vars(-ID, -Status), log) # 注意：这里对非数值列操作可能会报错或产生 NA，视具体情况而定

# 更稳健的做法通常是：选中数值列，然后排除特定的数值列
# 或者：使用 everything() 排除法

实际应用示例： 让我们把除了 ID 之外的所有列转换为大写字符串（仅作演示逻辑用）：

# 这里的逻辑是：选择所有列，然后减去 ID 列
complex_data %>%
  mutate_at(vars(-ID), toupper)

这种方法利用了 everything() 作为默认隐含选择，然后显式地减去不需要的列。

现代 dplyr 的推荐方式：使用 across() 函数

随着 dplyr 版本的更新（1.0.0 及以上），INLINECODE9bef10e8 函数被引入，旨在统一并替代 INLINECODEc593c2b4、INLINECODE93a2593a 和 INLINECODEbbf402e6 等后缀函数。INLINECODE42ed5ff4 不仅语法更加简洁，而且功能更加强大，尤其是在与 INLINECODEb3059942 和 summarise 结合使用时。

across 的基本语法

across(.cols, .fns, ...)

使用 across 排除列

让我们回到最初的简单数据集 data，看看如何用现代语法重写之前的操作。

场景： 再次排除 B 和 D 列，对剩下的列乘以 2。

library(dplyr)

# 使用 across 实现同样的排除逻辑
# 语法：across(columns = -c(B, D), fns = ~ . * 2)
result_across %
  mutate(across(-c(B, D), ~ . * 2))

print("使用 across 函数的结果：")
result_across

输出：

# A tibble: 5 × 4
      A     B     C     D
     
1     2     6    22    16
2     4     7    24    17
3     6     8    26    18
4     8     9    28    19
5    10    10    30    20

为什么 across 更好？

统一的语法：你不再需要记住 INLINECODEe462f9fd、INLINECODEe66ff0f8、INLINECODE7fe1bc81 的区别。只要是在 INLINECODE4e06822e 或 INLINECODE02de179b 中对多列操作，统统使用 INLINECODE7d90fdb2。
更好的组合性：你可以轻松地在一次 mutate 调用中混合使用单列操作和多列操作。
更灵活的选择器：在 INLINECODEb399abe1 中，排除列的语法与 INLINECODE05222fc8 函数完全一致。这意味着你可以使用 INLINECODEf0bfbfae、INLINECODE70bbaf4b 等更高级的选择辅助函数。

进阶示例：混合操作与多函数

让我们看一个更复杂的例子。假设我们想要：

排除 ID 列。
对剩下的数值列计算平均值和标准差（如果是汇总操作），或者
在变异操作中，对排除的列进行不同的处理。

让我们演示在一个 INLINECODE5efd91f0 调用中同时包含普通列操作和 INLINECODEdfc14270 操作：

# 假设我们想给 ID 加上前缀，同时让其他列翻倍
advanced_data <- tibble(
  ID = 1:5,
  Value_A = 1:5,
  Value_B = 6:10
)

# 使用 across 排除 ID 列进行翻倍，同时直接修改 ID 列
advanced_result %
  mutate(
    ID = paste0("User_", ID),  # 普通操作
    across(-ID, ~ . * 2)        # 对除 ID 外的所有列操作
  )

print("混合操作结果：")
advanced_result

输出：

# A tibble: 3 × 3
  ID      Value_A Value_B
          
1 User_1        2      12
2 User_2        4      14
3 User_3        6      16

这种写法清晰、易读且极具表现力，这正是我们追求的代码风格。

常见错误与故障排除

在使用排除列功能时，我们作为开发者可能会遇到一些常见的坑。让我们来看看如何避免它们。

1. 非整数索引的错误

在旧版本的 R 或某些特定语境下，如果你尝试用 INLINECODE0cf061fa 排除一个不存在的列，R 可能会报错，或者更糟糕的是，如果你使用数字索引（例如 INLINECODE6d01bca2），它可能指的是位置而非名称，这容易导致数据错误。

建议：始终使用列名进行排除（如 vars(-Name)），而不是数字位置，这样代码更健壮，不易受列顺序变化的影响。

2. 试图排除不存在的列

如果你尝试排除一个数据框中不存在的列名，代码通常会抛出错误。

解决方案：使用 INLINECODE0af34624 辅助函数（在较新的 dplyr 版本中可用）。如果你写 INLINECODE496cf589，dplyr 会忽略这些不存在的列，而不会报错。这在编写通用函数时非常有用。

# 安全地排除列（即使列不存在也不会报错）
data %>%
  mutate(across(-any_of(c("Z", "Y")), ~ . * 2))

3. 数据类型混淆

如果你对一组混合了数值和字符的列使用数学函数（排除某些列后），R 会尝试将数学函数应用于字符列，这通常会报错（例如 "invalid ‘x‘ type in ‘x * y‘"）。

解决方案：在使用 INLINECODEf70c4292 或 INLINECODEa4fd3f06 时，确保加上 is.numeric 的过滤。

# 仅对数值列操作，并排除特定的数值列
data %>%
  mutate(across(where(is.numeric) & !c(C), ~ . * 2))

总结与最佳实践

在这篇文章中，我们详细探讨了如何在 dplyr 中按名称排除列。我们从 INLINECODE4807c45e 开始，了解了 INLINECODEafaf3923 配合负号运算符的强大功能，并最终拥抱了更现代、更灵活的 across() 函数。

关键要点：

使用负号 INLINECODEafbb6b3c：这是排除列的核心语法，既适用于 INLINECODE651d5ac6 也适用于 across()。
优先选择 INLINECODE45dc27b8：如果你正在使用 dplyr 1.0.0 或更高版本，推荐在所有新代码中使用 INLINECODE9a727e7b。它让代码更具前瞻性和可读性。
代码的可读性：不要吝啬使用注释和换行。清晰地表达你的逻辑（例如“排除 ID 列”），这会让未来的你和你的队友感激不已。
结合辅助函数：熟练使用 INLINECODE709ce89c、INLINECODEd4789e4f、INLINECODEea527455 和 INLINECODEff30cbe5，能让你在面对复杂数据集时游刃有余。

掌握了这些技巧后，你会发现 R 语言的数据处理代码变得不仅功能强大，而且优雅简洁。希望这些知识能帮助你在下一个数据分析项目中更加高效！

现在，打开你的 RStudio，试试这些方法，看看你的数据处理流程能变得多么流畅。祝你编码愉快！

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客

在 R 语言 dplyr 中按名称排除列： mutate_at 与 across 的完全指南

为什么我们需要“排除列”？

核心概念：vars() 与负号索引

mutate_at 的基本原理

让我们开始编码：基础示例

方法一：使用 mutate_at 排除单列

方法二：使用 mutate_at 排除多列

进阶技巧：结合辅助函数使用

场景 1：排除特定类型的列

现代 dplyr 的推荐方式：使用 across() 函数

across 的基本语法

使用 across 排除列

为什么 across 更好？

进阶示例：混合操作与多函数

常见错误与故障排除

1. 非整数索引的错误

2. 试图排除不存在的列

3. 数据类型混淆

总结与最佳实践

相关文章美国1G带宽/1T流量高速vps $17.99/年