深入掌握 Pandas Merge：彻底搞定 DataFrame 数据合并的艺术

2026-02-15 13:32:33 0条评论 3次阅读 0人点赞

在使用 Python 进行数据分析时，我们经常面临这样的挑战：数据分散在不同的文件或数据表中。为了获得全面的洞察，我们需要将这些分散的信息拼凑在一起。这就好比我们在拼拼图，只有把所有碎片放在正确的位置，才能看到完整的画面。

Pandas 库中的 merge() 函数正是为此而生的强力工具。它允许我们基于共同的列（键）或索引，灵活地将两个 DataFrame 组合在一起。虽然概念上类似于 SQL 中的 JOIN 操作，但在 Pandas 中，我们通过直观的 Python 语法就能实现强大的数据对齐功能。

随着我们迈入 2026 年，数据工程的角色正在发生深刻变化。我们不仅是数据的处理者，更是 AI 模型的“数据喂养师”。现在的合并操作不仅仅是简单的拼接，更关乎数据质量、血缘追溯以及与 AI 工作流的无缝集成。在这篇文章中，我们将深入探讨如何利用 merge() 的各种选项和技巧来合并 DataFrame，并融入现代开发理念，帮助你构建更加健壮的数据处理管道。从基础的连接到处理复杂的列名不匹配问题，我们将一步步拆解，让你彻底掌握这一核心技能。准备好你的数据环境，让我们一起开始这段数据整合的旅程吧！

1 准备工作：构建我们的数据集
2 方法 1：内合并 —— 寻找完美匹配
3 方法 2：左合并 —— 以我为主
4 方法 3：右合并 —— 以你为主
5 方法 4：外合并 —— 全盘接收
6 2026 前沿视角：大数据环境下的合并挑战与对策
7 AI 辅助开发实战：如何用 Cursor 完善合并逻辑
8 深度实战：复合主键与多列匹配
9 总结

准备工作：构建我们的数据集

为了更好地演示合并操作的效果，我们需要先创建两个示例 DataFrame。为了让你更清晰地理解，我们设定这样一个场景：

df1 (员工基本信息表)：包含员工的 ID、姓名和年龄。
df2 (员工薪资详情表)：包含员工的 ID、性别和薪资。

请看下面的代码，我们将使用这两个数据集贯穿全篇文章：

import pandas as pd
import numpy as np

# 创建 DataFrame 1：员工基本信息
data1 = {
    ‘ID‘: [1, 2, 3, 4, 5],
    ‘Name‘: [‘Raj‘, ‘Sharma‘, ‘Saroj‘, ‘Raja‘, ‘Kajal‘],
    ‘Age‘: [25, 42, 22, 51, 26]
}
df1 = pd.DataFrame(data1)

# 创建 DataFrame 2：员工薪资详情
data2 = {
    ‘ID‘: [1, 2, 3, 4, 5],
    ‘Gender‘: [‘Male‘, ‘Male‘, ‘Female‘, ‘Male‘, ‘Female‘],
    ‘Salary‘: [25000, 42500, 22300, 51400, 26800]
}
df2 = pd.DataFrame(data2)

print("--- 员工基本信息 ---")
print(df1)
print("
--- 员工薪资详情 ---")
print(df2)

这一步非常关键，因为数据结构的差异直接决定了我们后续应该采用哪种合并策略。在真实的项目中，你可能需要先用 pd.read_csv() 来读取文件，但为了演示的清晰度，这里我们直接创建字典对象。

方法 1：内合并 —— 寻找完美匹配

内合并是 merge() 函数的默认模式。它的核心逻辑是“交集”。仅当在两个 DataFrame 中都具有匹配值的键时，该行才会被保留在结果中。如果某一行在任一 DataFrame 中没有对应的匹配项，它将被无情地排除在外。

什么时候使用它？

当你只对两个数据集中都存在的数据感兴趣时。例如，你想计算有薪资记录的员工的平均年龄，那些没有薪资信息的员工（可能不在薪资表中）就会被内合并过滤掉。

代码实现

我们可以显式地设置 how=‘inner‘，当然，这也是默认参数，所以不写也可以。

# 在 ‘ID‘ 列上执行内合并
result_df = pd.merge(df1, df2, on=‘ID‘, how=‘inner‘)

print("--- 内合并结果 ---")
print(result_df)

深入解析

在上面的例子中，因为两个表的 ID 列是完全对应的（1 到 5），所以结果看起来像是把两张表简单拼接在了一起。但让我们设想一种更复杂的情况：如果 df2 中没有 ID 为 3 的记录，那么在内合并的结果中，ID 为 3 的 ‘Saroj‘ 也会消失。这就是内合并的“严格”之处：它不容忍数据的缺失。

方法 2：左合并 —— 以我为主

左合并的思维方式是“以左为主”。它返回左 DataFrame（即写在 INLINECODE47ed4f00 函数左边的第一个 DataFrame，这里是 INLINECODEb278c401）中的所有行。对于右 DataFrame，只返回匹配的行。如果在左边找不到对应的匹配项，结果中右边的列将包含 NaN（Not a Number）值。

什么时候使用它？

这是实际业务中最常用的合并方式之一。通常我们有一个“主表”（例如订单列表），想要关联一些“辅助信息”（例如用户详情）。我们绝对不能因为缺少用户详情就丢掉订单记录，这时就需要左合并。

代码实现

# 在 ‘ID‘ 列上执行左合并
result_left = pd.merge(df1, df2, on=‘ID‘, how=‘left‘)

print("--- 左合并结果 ---")
print(result_left)

方法 3：右合并 —— 以你为主

右合并与左合并正好相反。它优先保留右 DataFrame（INLINECODE8133bfed）中的所有行。如果 INLINECODEac77233f 中没有匹配项，左侧的列就会填充 NaN。

什么时候使用它？

在数据分析中，右合并其实不如左合并常用。很多资深程序员甚至建议：尽量使用左合并。为什么？因为将“主表”放在左边更符合阅读习惯，代码逻辑也更直观。如果你发现自己需要写一个右合并，试着交换一下 INLINECODE34b720c6 和 INLINECODE3bac69c9 的位置，然后使用左合并，效果是完全一样的。

代码实现

# 在 ‘ID‘ 列上执行右合并
result_right = pd.merge(df1, df2, on=‘ID‘, how=‘right‘)

print("--- 右合并结果 ---")
print(result_right)

方法 4：外合并 —— 全盘接收

外合并是“并集”思维的体现。它返回两个 DataFrame 中的所有行。无论是否匹配，所有的数据都会被被保留下来。对于没有匹配的位置，缺失值自然显示为 NaN。

什么时候使用它？

当你需要全面审查数据，或者找出两个系统之间的数据差异时。例如，对比旧系统和新系统的用户数据，你希望既保留旧系统有但新系统没有的用户，也保留新系统有但旧系统没有的用户。

代码实现

# 在 ‘ID‘ 列上执行外合并
result_outer = pd.merge(df1, df2, on=‘ID‘, how=‘outer‘)

print("--- 外合并结果 ---")
print(result_outer)

2026 前沿视角：大数据环境下的合并挑战与对策

当我们从简单的示例转向处理 GB 级别的真实数据时，情况会变得复杂。在 2026 年，数据处理不再仅仅是跑脚本，而是涉及资源管理和性能优化的工程问题。我们在最近的一个企业级数据迁移项目中遇到了严重的性能瓶颈，以下是我们的解决方案。

1. 索引合并：速度提升的关键

如果你的数据量非常大（百万行以上），基于列的合并可能会比较慢，因为 Pandas 需要对列进行哈希计算和对齐。如果合并键恰好也是索引，或者我们可以将合并键设置为索引，那么使用 INLINECODE23c81d61 和 INLINECODE351aede6 会带来显著的性能提升。这是因为在内存中索引的对齐速度远快于列值的扫描。

# 将 ID 设置为索引
# 这一步操作虽然花费时间，但对于后续频繁的合并操作是值得的投资
df1_indexed = df1.set_index(‘ID‘)
df2_indexed = df2.set_index(‘ID‘)

# 基于索引合并
result_indexed = pd.merge(df1_indexed, df2_indexed, 
                          left_index=True, 
                          right_index=True, 
                          how=‘left‘)
print("--- 基于索引合并 ---")
print(result_indexed.head())

2. 验证数据完整性：防止数据膨胀

在进行大规模合并前，建议先检查键的唯一性。如果键不唯一，要警惕“一对多”合并导致的数据膨胀问题。

使用 df1[‘ID‘].is_unique 检查 ID 是否唯一。
如果键不唯一，要警惕“一对多”合并导致的数据膨胀问题。

3. 处理后缀冲突与类型一致性

在处理多源数据时，列名冲突是常态。如果 INLINECODE3d95dbf1 和 INLINECODE8f0fc7f2 中除了合并键外，还有同名的列（比如都有 ‘Data‘ 列），Pandas 会自动给它们加上后缀 INLINECODE496cea04 和 INLINECODEa3ee1768。这很有用，但读起来不方便。我们可以通过 suffixes 参数自定义后缀：

# 假设两个表都有 ‘Data‘ 列
result_suffix = pd.merge(df1, df2, on=‘ID‘, suffixes=(‘_basic‘, ‘_salary‘))

此外，一个常见的陷阱是数据类型不匹配。如果 df1 的 ID 是 INLINECODEbe686cee，而 df2 的 ID 是 INLINECODE1bec41f3，合并结果将是空的。在 2026 年的现代工具链中，虽然像 Pandera 这样的库可以帮助我们在运行前验证 Schema，但在手动合并时，我们通常建议使用 astype() 在合并前强制转换类型，确保万无一失。

AI 辅助开发实战：如何用 Cursor 完善合并逻辑

在 2026 年的“氛围编程”环境下，我们不再孤军奋战。当你面对复杂的合并需求时，AI 是你的最佳搭档。让我们来看看如何利用像 Cursor 这样的 AI IDE 来解决一个棘手的问题：模糊匹配。

假设我们需要合并两个表，但它们的键并非完全一致（一个是“Raj”，另一个是“Raj Kumar”）。标准的 merge() 无能为力。这时，我们可以借助 AI 生成代码。

场景：我们需要基于“姓名相似度”来合并数据。
我们可以在 AI IDE 中这样提示：

> “我们有两个 DataFrame，INLINECODEb8033852 和 INLINECODEee7b7721。它们有一个共同的列 ‘Name‘。但是 ‘Name‘ 列的拼写可能略有不同（例如 ‘Raj‘ 和 ‘Raj Kumar‘）。请写一段 Python 代码，使用 thefuzz 库进行模糊匹配合并。如果相似度大于 80，则视为匹配。”

AI 生成的代码逻辑示例（需安装 thefuzz）：

# 注意：模糊匹配计算量很大，仅建议用于小规模数据清洗
# 首先安装：pip install thefuzz
from thefuzz import process

# 模拟模糊匹配函数
def fuzzy_merge(df_a, df_b, key1, key2, threshold=80):
    """
    对 df_a 中的每个 key1，在 df_b[key2] 中寻找最佳匹配。
    如果分数低于 threshold，则返回 NaN。
    """
    matches = []
    # 获取 df_b 中所有的名称列表
    choices = df_b[key2].tolist()
    
    for name in df_a[key1]:
        # 使用 process.extractOne 找到最佳匹配项和得分
        match = process.extractOne(name, choices)
        if match[1] >= threshold:
            matches.append(match[0])
        else:
            matches.append(None)
    return matches

# 这是一个演示，展示如何处理非标准键
# 在实际生产中，我们通常先用 AI 代码生成清洗脚本来标准化数据，而不是直接合并
# df1[‘Matched_Name‘] = fuzzy_merge(df1, df2, ‘Name‘, ‘Name‘)
# result_fuzzy = pd.merge(df1, df2, left_on=‘Matched_Name‘, right_on=‘Name‘)

这段代码展示了 AI 如何帮助我们处理脏数据。但在生产环境中，我们更推荐的做法是利用 AI 编写数据清洗脚本，将“Raj”和“Raj Kumar”标准化为同一个 ID，然后再进行标准的 merge()，这样既保证了性能，又维护了数据的准确性。

深度实战：复合主键与多列匹配

现实世界的数据往往比较复杂，仅凭一列（比如 ID）可能无法唯一确定一行数据。比如，在一个大型连锁店的数据中，可能有多个“ID 为 1”的订单，但它们属于不同的城市。此时，单一键合并会导致数据重复或错乱。

代码实现

我们可以通过向 on 参数传递一个列名列表，基于多个键进行合并。只有当多个列的值同时匹配时， Pandas 才会认为这两行数据是关联的。

# 添加部门列到两个 DataFrame 中
df1[‘Dept‘] = [‘HR‘, ‘IT‘, ‘IT‘, ‘Sales‘, ‘HR‘]
df2[‘Dept‘] = [‘HR‘, ‘IT‘, ‘IT‘, ‘Sales‘, ‘Marketing‘] # 注意这里最后一个不同

# 为了演示多列匹配，我们稍微修改一下 ID 制造冲突
# 假设 ID 5 在 df1 是 IT 部门，在 df2 也是 IT 部门才能匹配上
# 让我们重置数据以展示更清晰的多列匹配逻辑

data1_multi = {
    ‘ID‘: [1, 2, 3, 4, 5],
    ‘Name‘: [‘Raj‘, ‘Sharma‘, ‘Saroj‘, ‘Raja‘, ‘Kajal‘],
    ‘Dept‘: [‘HR‘, ‘IT‘, ‘IT‘, ‘Sales‘, ‘HR‘] # 5号在HR
}
df1_multi = pd.DataFrame(data1_multi)

data2_multi = {
    ‘ID‘: [1, 2, 3, 4, 5, 5], # 注意这里有两个5号
    ‘Salary‘: [25000, 42500, 22300, 51400, 26000, 28000],
    ‘Dept‘: [‘HR‘, ‘IT‘, ‘IT‘, ‘Sales‘, ‘HR‘, ‘IT‘] # 5号一个是HR，一个是IT
}
df2_multi = pd.DataFrame(data2_multi)

# 基于 ID 和 Dept 合并（精准匹配）
# 这样可以避免 ID 5 的数据错乱
merge_multi = pd.merge(df1_multi, df2_multi, on=[‘ID‘, ‘Dept‘], how=‘inner‘)
print("
--- 基于 ID 和 Dept 多列合并 (精准匹配) ---")
print(merge_multi)

深度理解

你可以看到，当我们使用 on=[‘ID‘, ‘Dept‘] 时，Pandas 会同时检查 ID 和 Dept。只有在两者都完全一致时，才会进行合并。这样就避免了数据的错配。在处理具有复合主键的数据库表时，这一点尤为重要。

总结

通过这篇文章，我们不仅学习了 Pandas merge() 函数的四种核心模式（内、左、右、外），还深入探讨了多列匹配、异名合并以及基于索引的优化技巧。更重要的是，我们将这些基础技能放到了 2026 年的技术背景下，讨论了如何在 AI 辅助下进行开发，以及如何处理大数据场景下的性能问题。

我们可以把 merge() 想象成数据库层面的 VLOOKUP，但它比 Excel 强大得多且速度快得多。数据分析的本质就是从混乱中寻找秩序，而合并数据正是这第一步的关键。随着数据量的增长和工具的进化，掌握这些核心概念将使你无论在 Pandas 还是未来的数据分析框架中都能游刃有余。

接下来你可以尝试：

实战演练：试着合并你手头的两个 CSV 文件，观察左合并和外合并的区别，并处理 NaN 值。
性能测试：尝试生成 100 万行的数据，对比列合并和索引合并的速度差异，感受性能优化的威力。
AI 协作：在你的 IDE 中尝试让 AI 帮你写一个处理特定列名冲突的合并脚本，体验“氛围编程”的乐趣。

希望这篇指南能帮助你更加自信地处理复杂的数据整合任务。祝你编码愉快！

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客

深入掌握 Pandas Merge：彻底搞定 DataFrame 数据合并的艺术

准备工作：构建我们的数据集

方法 1：内合并 —— 寻找完美匹配

什么时候使用它？

代码实现

深入解析

方法 2：左合并 —— 以我为主

什么时候使用它？

代码实现

方法 3：右合并 —— 以你为主

什么时候使用它？

代码实现

方法 4：外合并 —— 全盘接收

什么时候使用它？

代码实现

2026 前沿视角：大数据环境下的合并挑战与对策

1. 索引合并：速度提升的关键

2. 验证数据完整性：防止数据膨胀

3. 处理后缀冲突与类型一致性

AI 辅助开发实战：如何用 Cursor 完善合并逻辑

深度实战：复合主键与多列匹配

代码实现

深度理解

总结

接下来你可以尝试：

相关文章美国1G带宽/1T流量高速vps $17.99/年