如何将多个 CSV 文件合并为一个 Pandas DataFrame：全方位指南

2026-02-14 11:46:39 0条评论 2次阅读 0人点赞

在进行数据科学或数据分析项目时，你是否曾经面临过这样的挑战：数据并非整齐地存储在一个巨大的文件中，而是零散地分布在几十个甚至上百个 CSV 文件里？这种“数据碎片化”的情况在实际工作中非常常见。比如，你可能会按月份收集销售数据，或者按不同的传感器节点收集日志记录。

当我们面对这种碎片化的数据时，第一反应往往是手动打开 Excel 一个个复制粘贴。这不仅效率极低，而且容易出错。幸运的是，作为 Python 数据分析生态圈的基石，Pandas 库为我们提供了强大且灵活的工具来解决这个问题。

在这篇文章中，我们将深入探讨如何利用 Python 和 Pandas 将多个 CSV 文件高效地合并为一个单一的数据框。我们将从最基础的合并方法入手，逐步深入到更高级的文件处理模式。通过丰富的代码示例和实际场景分析，你将学会如何运用 INLINECODE4311d3d2、INLINECODE560a48de 函数以及 glob 模块来处理复杂的数据合并任务。

准备工作：了解我们的数据

为了演示合并过程，假设我们的工作目录下有三个 CSV 文件。为了让你更直观地理解，我们将使用简单的数据结构。

第一个 CSV 文件 (data_1.csv)

假设我们有一个包含员工 ID 和姓名的文件：

ID,Name
101,Alice
102,Bob

第二个 CSV 文件 (data_2.csv)

这个文件包含后续的员工信息：

ID,Name
103,Charlie
104,David

第三个 CSV 文件 (data_3.csv)

或者是其他部门的数据：

ID,Name
105,Eve
106,Frank

我们的目标是将这三个文件的内容垂直堆叠，形成一份包含所有员工信息的完整列表。让我们开始吧。

方法一：精确指定文件名合并

这是最直观的方法。当你确切知道需要合并哪些文件，且文件数量较少时，直接指定文件名是最稳妥的方式。我们将结合使用 Python 内置的 INLINECODEbb3f1a24 函数和 Pandas 的 INLINECODEf3397f1e 函数。

#### 核心概念解析

在动手写代码之前，让我们先理解一下即将用到的两个核心工具：

INLINECODE2173c4bf: 这是 Pandas 中用于“拼接”数据的核心函数。你可以把它想象成胶水，将多个 DataFrame 对象沿着特定的轴（默认是行轴，即 INLINECODEfdef3e9b）连接起来。它非常智能，能够自动对齐列名。
map(function, iterable): 这是 Python 的内置函数。它会对可迭代对象（比如我们的文件名列表）中的每一个元素应用指定的函数。在这里，我们用它来批量读取文件。

#### 实战演示

让我们通过一个具体的例子来看看如何合并 INLINECODEdc38f36e 和 INLINECODE487f0ad9。

示例代码：使用 map 和 concat 合并指定文件

# 导入 pandas 库
import pandas as pd

# 定义我们要合并的文件列表
file_list = [‘data_1.csv‘, ‘data_2.csv‘]

# 使用 map 函数批量读取文件
# 这行代码会生成一个包含 DataFrame 对象的迭代器
df_list = map(pd.read_csv, file_list)

# 使用 concat 将读取到的 DataFrame 拼接在一起
# ignore_index=True 会重置索引，使其从 0 到 N 连续排列
df_combined = pd.concat(df_list, ignore_index=True)

# 打印合并后的结果
print("合并后的数据：")
print(df_combined)

输出结果：

合并后的数据：
    ID     Name
0  101    Alice
1  102      Bob
2  103  Charlie
3  104    David

#### 代码深度解析

你可能会问，为什么我们可以直接把 INLINECODE531dbe00 返回的对象传给 INLINECODE88cf8389？这是因为 INLINECODE54b5bb96 接受一个“可迭代对象”作为参数。INLINECODE1760c14d 返回的是一个迭代器，这不仅可以节省内存（不需要一次性加载所有数据到内存列表中），而且完全符合 concat 的输入要求。

此外，ignore_index=True 是一个非常重要的参数。如果不设置它，合并后的数据框会保留原始文件的索引（比如第一部分数据以 0,1 结尾，第二部分数据又重新以 0,1 开头），这在后续数据分析中可能会导致混淆。通常情况下，我们都建议在合并时重置索引。

方法二：使用通配符批量合并目录中的所有文件

如果你需要处理的文件非常多（比如 100 个日志文件），或者文件的名称包含规律的数字编号，手动输入文件名列表就变得不切实际了。这时，我们需要使用 Python 的 INLINECODEfe4d189e 和 INLINECODE66fd4091 模块来自动查找文件。

#### 核心概念解析

这里我们将引入几个新的工具：

INLINECODE9507862c: 这是一个用于拼接文件路径的函数。它最大的优点是跨平台兼容性。无论你是在 Windows（使用反斜杠 INLINECODE52a7b3a9）还是 Linux/Mac（使用正斜杠 /）上工作，它都能自动生成正确的路径字符串。
INLINECODEb476626a: 这是文件匹配的神器。它类似于我们在命令行中使用的通配符。例如，INLINECODEc28c4811 可以匹配当前目录下所有扩展名为 .csv 的文件。

#### 实战演示

假设我们要合并当前目录下所有以 data_ 开头的 CSV 文件。

示例代码：自动查找并合并所有匹配的文件

import pandas as pd
import glob
import os

# 1. 设置文件匹配模式
# os.path.join 确保路径在不同操作系统下都正确
# "data_*.csv" 表示任何以 data_ 开头，以 .csv 结尾的文件
pattern = os.path.join(".", "data_*.csv")

# 2. 获取所有匹配文件的列表
# glob.glob 返回一个包含完整路径的列表，例如 [‘./data_1.csv‘, ‘./data_2.csv‘]
file_list = glob.glob(pattern)

print(f"找到 {len(file_list)} 个文件待合并...")

# 3. 合并文件
# 结合 map 和 concat 实现高效读取和合并
df_all = pd.concat(map(pd.read_csv, file_list), ignore_index=True)

print("所有文件合并完成！")
print(df_all)

输出结果：

找到 3 个文件待合并...
所有文件合并完成！
    ID     Name
0  101    Alice
1  102      Bob
2  103  Charlie
3  104    David
4  105      Eve
5  106    Frank

进阶技巧：处理数据与最佳实践

掌握了基本方法后，在实际工作中我们还需要考虑更多细节。下面让我们探讨一些常见问题及其解决方案。

#### 1. 处理不同的数据格式（编码问题）

有时候，尽管文件后缀都是 .csv，但它们的编码格式可能不同。例如，有些是 UTF-8，有些是 GBK。直接读取可能会报错。我们可以通过自定义一个处理函数来增强程序的健壮性。

示例：容错性读取

import pandas as pd

def safe_read_csv(file_path):
    """
    尝试用不同的编码读取 CSV 文件
    """
    try:
        # 尝试默认的 utf-8 读取
        return pd.read_csv(file_path)
    except UnicodeDecodeError:
        try:
            # 如果失败，尝试 GBK 编码 (常见于中文 Windows 系统导出的文件)
            return pd.read_csv(file_path, encoding=‘gbk‘)
        except Exception as e:
            print(f"无法读取文件 {file_path}: {e}")
            return pd.DataFrame() # 返回空 DataFrame 以保持结构完整

# 模拟使用该函数
files = [‘data_1.csv‘, ‘some_gbk_file.csv‘]
df_list = [safe_read_csv(f) for f in files]
final_df = pd.concat(df_list, ignore_index=True)

#### 2. 添加数据源标识

合并多个文件后，你往往需要知道某一行数据最初来自哪个文件（例如，是来自 1 月的数据还是 2 月的数据？）。我们可以在读取时添加一个新列来标记来源。

示例：标记数据来源

import pandas as pd
import glob
import os

files = glob.glob("data_*.csv")
data_frames = []

for file in files:
    # 读取文件
    df = pd.read_csv(file)
    
    # 添加一列 ‘source_file‘，记录文件名
    # os.path.basename 用于从路径中提取纯文件名
    df[‘source_file‘] = os.path.basename(file)
    
    data_frames.append(df)

# 合并所有带标记的 DataFrame
final_df = pd.concat(data_frames, ignore_index=True)

print(final_df)

输出结果：

    ID     Name source_file
0  101    Alice  data_1.csv
1  102      Bob  data_1.csv
2  103  Charlie  data_2.csv
3  104    David  data_2.csv
4  105      Eve  data_3.csv
5  106    Frank  data_3.csv

#### 3. 性能优化建议

当你处理超大规模数据文件时（例如几十 GB），直接使用 pd.concat(map(...)) 可能会导致内存不足。以下是几点优化建议：

迭代式处理: 尽量使用生成器表达式（如 map）而不是列表推导式，以减少内存占用。
分块读取: 如果单个文件本身就很大，可以使用 pd.read_csv(chunksize=10000) 进行分块读取和处理。
数据类型优化: 在读取数据后，使用 INLINECODE9e3e3d0e 将数值列转换为更小的数据类型（如 INLINECODEf3aa03fe 代替 int64），这通常能节省 50% 以上的内存。

常见错误与解决方案

错误 1：AssertionError: No objects to concatenate

原因: 通常是因为 INLINECODE38e0f7a6 没有找到任何匹配的文件，或者文件路径错误，导致传入 INLINECODE546449be 的列表是空的。
解决: 在 INLINECODE95140564 之前检查文件列表长度：INLINECODE12918534。

错误 2：列名不一致导致数据错位

原因: 如果 CSV A 有列 INLINECODE5a07987c 而 CSV B 有列 INLINECODE767b7338，pd.concat 默认会做外连接，导致缺失值出现。
解决: 在合并前，使用 df.drop() 删除不需要的列，或者确保所有文件的列结构一致。

总结

在这篇文章中，我们深入探讨了使用 Pandas 合并 CSV 文件的多种方法。我们从最基本的按名合并，过渡到了使用 glob 模块进行自动化批量处理，并进一步研究了处理编码问题和标记数据来源等高级技巧。

总结一下，你需要掌握的关键点包括：

使用 pd.concat 是合并数据的标准方式。
利用 INLINECODE13c3b7f8 函数和 INLINECODE628e7cb4 模块可以极大地简化文件读取流程，避免硬编码文件名。
设置 ignore_index=True 是保持数据整洁的关键细节。
在实际生产环境中，考虑数据来源标记和异常处理是非常重要的。

现在，你可以尝试将这些技巧应用到自己的项目中，告别繁琐的手动复制粘贴，享受高效的数据分析体验。如果你在操作中遇到更复杂的数据结构，欢迎继续探讨更高级的 INLINECODE07c615d9 和 INLINECODEdf5cca03 操作。

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客

如何将多个 CSV 文件合并为一个 Pandas DataFrame：全方位指南

准备工作：了解我们的数据

方法一：精确指定文件名合并

方法二：使用通配符批量合并目录中的所有文件

进阶技巧：处理数据与最佳实践

常见错误与解决方案

总结

相关文章美国1G带宽/1T流量高速vps $17.99/年