Pandas 实战指南：如何高效地排除 DataFrame 中的列

2026-01-31 22:26:17 0条评论 31次阅读 0人点赞

当我们处理真实世界的数据集时，往往面临着“维度灾难”或者仅仅是需要聚焦于特定指标的情况。比如，你手头有一个包含 100 个列的宽表，但你的分析任务只需要关注其中的 5 个关键指标。这时候，如何快速、优雅地“排除”掉那些无关的列，就显得尤为重要。在 Pandas 中，虽然直接选取列很简单，但“排除”列的操作却蕴含着不少技巧和性能考量。

在这篇文章中，我们将深入探讨从 Pandas DataFrame 中排除列的各种实用方法。我们将不仅学习如何使用 INLINECODEe42ee868 或 INLINECODE14113302，还会深入理解这些操作背后的机制，探讨性能差异，并分享在实际开发中避免踩坑的经验。准备好了吗？让我们开始优化你的数据处理流程吧。

为什么我们需要关注“排除列”的操作？

在编写代码时，明确地“排除”某些列往往比“选择”某些列更具可读性，尤其是在保留大部分数据而只丢弃少数几列的情况下。想象一下，如果你想保留 99 个列而排除 1 个，写出“排除这 1 个”的代码远比列出“保留这 99 个”要清晰得多。

此外，在数据预处理阶段，我们经常需要剔除 ID 列、高度相关的特征列或者全是缺失值的列。掌握多种排除列的技巧，能让你在面对不同数据结构和需求时游刃有余。

方法一：使用 .loc[] 进行标签排除

.loc[] 是 Pandas 中基于标签进行索引的核心函数。虽然它常被用来选择数据，但结合布尔掩码，它也是排除列的利器。

#### 1.1 排除单列

最直观的场景是排除单个指定的列。我们可以通过生成一个布尔数组来实现：对于每一列，如果列名不等于我们要排除的名称，则为 True。

让我们通过一个具体的例子来看看。假设我们有一个包含食物 ID、名称、城市和价格的数据集，我们想要排除 ‘cost‘ 列来分析非价格因素。

import pandas as pd

# 创建一个示例 DataFrame
data = pd.DataFrame({
    ‘food_id‘: [1, 2, 3, 4],
    ‘name‘: [‘idly‘, ‘dosa‘, ‘poori‘, ‘chapathi‘],
    ‘city‘: [‘delhi‘, ‘goa‘, ‘hyd‘, ‘chennai‘],
    ‘cost‘: [12, 34, 21, 23]
})

# 使用 .loc[] 排除 ‘cost‘ 列
# 逻辑：选择所有行 (:)，但仅选择列名不等于 ‘cost‘ 的列
excluded_df = data.loc[:, data.columns != ‘cost‘]

print("使用 .loc[] 排除 ‘cost‘ 列后的结果：")
print(excluded_df)

输出：

     food_id     name     city
0        1     idly    delhi
1        2     dosa      goa
2        3    poori      hyd
3        4  chapathi  chennai

代码解析：

这里的关键在于 INLINECODEaa90eccb。这行代码生成了一个类似 INLINECODEa73fdf71 的布尔数组。.loc[] 接收这个数组，只保留对应位置为 True 的列。这种方法在处理单个列时非常直观且易于阅读。

#### 1.2 排除多列（进阶技巧）

当我们需要排除多个列时，单纯的“不等于”运算符就不够用了。这时，我们可以利用 INLINECODEb84112fc 方法结合取反操作符 INLINECODE31851d5b 来实现。这是处理多列排除最“地道”的 Pandas 写法之一。

假设我们要同时排除 ‘name‘ 和 ‘food_id‘，只关注地理位置和成本：

# 使用 .isin() 方法配合 ~ 取反符来排除多列
# 逻辑：选择所有行，但排除列名在列表 [‘name‘, ‘food_id‘] 中的列
excluded_multiple = data.loc[:, ~data.columns.isin([‘name‘, ‘food_id‘])]

print("排除 ‘name‘ 和 ‘food_id‘ 列后的结果：")
print(excluded_multiple)

输出：

      city  cost
0    delhi    12
1      goa    34
2      hyd    21
3  chennai    23

实战经验：

这种方法非常强大，因为它允许你动态维护一个“排除列表”。你可以把这个列表定义在一个变量中，然后在多处复用，便于代码维护。

方法二：使用 .drop() 按名称排除

如果说 INLINECODEb88eab3c 是瑞士军刀，那么 INLINECODEe5a491ba 就是专门为此设计的手术刀。它是 Pandas 中删除数据（行或列）最常用的方法，语义非常清晰。

#### 2.1 基础用法

INLINECODE82199ee7 方法通过 INLINECODE3080860e 参数（旧版本中也可以用 axis=1）来指定要删除的列名。默认情况下，这个方法会返回一个新的 DataFrame，而不会修改原数据，这在数据科学流程中是非常安全的做法。

# 使用 drop 方法排除 ‘cost‘ 列
dropped_df = data.drop(columns=[‘cost‘])

# 或者使用 axis=1 的写法（效果相同）
# dropped_df = data.drop([‘cost‘], axis=1)

print("使用 .drop() 排除 ‘cost‘ 列后的结果：")
print(dropped_df)

输出：

     food_id     name     city
0        1     idly    delhi
1        2     dosa      goa
2        3    poori      hyd
3        4  chapathi  chennai

#### 2.2 就地修改

有时候，为了节省内存或者不再需要原始数据，我们希望直接在原对象上进行修改。这时候可以使用 inplace=True 参数。

# 创建副本演示就地修改
data_copy = data.copy()

# 直接在 data_copy 上修改，不返回新对象
data_copy.drop(columns=[‘cost‘], inplace=True)

# 此时 data_copy 已经被改变
print("就地修改后的 DataFrame：")
print(data_copy.head())

注意： 虽然 inplace=True 看起来很方便（因为它不需要给变量重新赋值），但在某些复杂的链式操作中，我们通常还是倾向于使用非就地操作，以保持函数式编程的风格，减少副作用。

#### 2.3 处理不存在的列

在实际项目中，你可能会尝试删除一个并不存在的列。默认情况下，Pandas 会抛出一个 INLINECODEc7b2ff1e，导致程序崩溃。为了避免这种情况，我们可以开启 INLINECODE7cd8b3d0 参数。

try:
    # 尝试删除一个不存在的列 ‘price‘
    safe_drop = data.drop(columns=[‘price‘])
except KeyError as e:
    print(f"发生错误: {e}")

# 使用 errors=‘ignore‘ 来安全地忽略不存在的列
safe_drop = data.drop(columns=[‘price‘, ‘cost‘], errors=‘ignore‘)
print("使用 errors=‘ignore‘ 后的操作成功完成。")

这个技巧在编写通用数据处理函数时非常有用，它让你的代码更加健壮。

方法三：使用 Python 列表操作与列表推导式

除了 Pandas 自带的方法，Python 原生的列表功能也能派上用场，特别是在结合 Pandas 的列选择器时。

#### 3.1 使用 list.remove()

这是一种非常“Pythonic”的做法。我们可以获取列名的列表，利用列表的 .remove() 方法移除不需要的项，然后再传回 DataFrame 进行索引。

# 获取列名列表
cols = list(data.columns)

# 从列表中移除 ‘cost‘
if ‘cost‘ in cols:
    cols.remove(‘cost‘)

# 使用处理后的列表重新选择列
cleaned_df = data[cols]

print("使用 list.remove() 方法处理后的 DataFrame：")
print(cleaned_df)

输出：

     food_id     name     city
0        1     idly    delhi
1        2     dosa      goa
2        3    poori      hyd
3        4  chapathi  chennai

场景分析： 这种方法适合当你需要手动维护一个很长的列名列表，并且需要通过逻辑判断来逐个移除列时。它的执行效率很高，因为它是在 Python 层面处理列表索引。

#### 3.2 使用列表推导式进行动态过滤

如果你遇到的排除规则比较复杂（例如，“排除所有以字母 ‘c‘ 开头的列”，或者“排除所有包含下划线的列”），列表推导式是最佳选择。

# 场景：排除所有以字母 ‘c‘ 开头的列 (‘city‘ 和 ‘cost‘)
filtered_cols = [col for col in data.columns if not col.startswith(‘c‘)]

dynamic_df = data[filtered_cols]

print("使用列表推导式排除以 ‘c‘ 开头的列：")
print(dynamic_df)

输出：

     food_id     name
0        1     idly
1        2     dosa
2        3    poori
3        4  chapathi

这种方法提供了极大的灵活性。你可以结合正则表达式 re 模块，或者任何自定义的函数来决定哪些列应该被保留。

方法四：基于数据类型的排除

在特征工程中，我们经常需要根据数据类型来筛选数据。例如，在训练某些模型时，我们可能只需要数值型特征，或者只想排除 ID 类的字符串列。

INLINECODEd59455ac 是这一任务的终极武器。虽然它主要用于“选择”，但我们可以通过 INLINECODE91b28095 参数来实现“排除”的目的。

# 场景：排除所有数值类型的列（int, float），只保留对象类型（字符串）
only_strings = data.select_dtypes(exclude=[‘number‘])

print("排除所有数值列后的结果：")
print(only_strings)

输出：

      name     city
0     idly    delhi
1     dosa      goa
2    poori      hyd
3  chapathi  chennai

应用场景：

文本挖掘： 只排除数值列，专注于文本分析。
数据清洗： 快速排除所有 object 类型列以检查数学相关性。

你甚至可以组合排除多种类型：

# 同时排除整数和浮点数（虽然在这个例子中是一样的）
# 或者排除特定的 numpy 类型如 np.int64
data.select_dtypes(exclude=[‘int64‘, ‘float64‘])

方法五：差异集操作

这是一个简单但极其有效的数学集合思维的应用。如果你想保留列表 A 中的所有列，除了列表 B 中的列，你可以计算集合的差集。

# 定义你想排除的列
cols_to_exclude = [‘cost‘, ‘city‘]

# 计算差集：所有列 - 排除列 = 保留列
final_cols = list(set(data.columns) - set(cols_to_exclude))

# 重新索引
# 注意：set 是无序的，如果你需要保持列的原始顺序，需要额外的排序步骤
# final_cols = [c for c in data.columns if c not in cols_to_exclude] # 这种写法会保持顺序

subset_df = data[final_cols]

print("使用集合差集方法：")
print(subset_df)

小贴士： Python 的 INLINECODE0f89197c 是无序的。直接使用 INLINECODE3a0dfaa3 差集可能会导致列的顺序随机打乱。如果你对列的顺序有严格要求（例如后续代码依赖列索引），建议使用列表推导式的写法（如注释中所示），它不仅保持了顺序，而且性能依然很好。

性能优化与常见错误

在实际处理大数据集（例如数百万行）时，选择哪种方法会有细微的性能差别。

性能对比：

* INLINECODE8c632a2b 和 INLINECODE59144917 在内部优化得很好，通常是首选。

* 列表推导式 [col for col ...] 在处理列数极多（几千列）时非常快，因为它利用了 Python 原生列表的速度，但在处理行数据时不如 Pandas 内置方法快。

* 避免在循环中使用 INLINECODEf6baaa78 或 INLINECODE5a769c77，这在 Pandas 中是极大的性能杀手。尽量使用向量化操作。

链式赋值警告：

如果你尝试使用 INLINECODEfedd785b 这种方式修改数据，Pandas 可能会抛出 INLINECODEf9fc867b。这是 Pandas 在提醒你，你可能正在试图修改一个视图（View）而不是副本，这可能导致修改不生效。最安全的做法总是创建副本，或者使用 .loc 明确赋值。

总结

在这篇文章中，我们探索了在 Pandas 中排除列的多种方法，从基础的 .drop() 到灵活的列表推导式。没有一种方法是“最好”的，只有最适合当前场景的。

如果你只是想删除几列，.drop() 是最清晰、最安全的。
如果你需要基于复杂的条件过滤，列表推导式 会给你最大的自由度。
如果你正在按数据类型清洗数据，select_dtypes() 是不二之选。

希望这些技巧能帮助你写出更简洁、更高效的 Pandas 代码。下次当你面对杂乱的数据表时，你知道该怎么做了！

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客

Pandas 实战指南：如何高效地排除 DataFrame 中的列

为什么我们需要关注“排除列”的操作？

方法一：使用 .loc[] 进行标签排除

方法二：使用 .drop() 按名称排除

方法三：使用 Python 列表操作与列表推导式

方法四：基于数据类型的排除

方法五：差异集操作

性能优化与常见错误

总结

相关文章美国1G带宽/1T流量高速vps $17.99/年