深入掌握 Pandas Merge：从入门到实战的完整指南

2026-02-09 07:15:53 0条评论 40次阅读 0人点赞

在数据分析和机器学习的征途上，我们很少能够一次性拿到完美的数据集。更常见的情况是，数据分散在多个不同的表格、数据库或文件中，就像散落在地下的拼图碎片。作为数据分析师或科学家，我们面临的首要挑战往往不是复杂的算法，而是如何将这些碎片化的数据有效地拼接在一起，形成一张完整的“拼图”以供后续分析。

这时候，Pandas 中的 Merge（合并） 操作就成为了我们手中最核心的武器之一。你可以把它想象成 SQL 中的 JOIN 语句，但它更灵活、更贴近 Python 的生态。在本教程中，我们将通过一系列实用的案例，深入探讨如何使用 merge() 函数优雅地处理数据合并问题。我们将不只是学习语法，更会理解合并背后的逻辑，比如内连接、外连接的区别，以及如何处理键名不同的情况。准备好了吗？让我们开始构建你的数据整合工具箱吧。

为什么数据合并如此重要？

在实际业务场景中，数据的产生往往是分离的。例如，一个电商平台的“用户信息”可能存储在一个表中，而“订单详情”存储在另一个表中。当你想分析“不同性别用户的购买兴趣”时，你就必须将这两个表关联起来。

Pandas 为我们提供了多种合并方式：

merge()：基于键（列）的合并，最像 SQL，也是我们今天的主角。
join()：主要用于基于索引的合并。
concat()：简单的堆叠，沿轴连接对象。

今天，我们将专注于功能最强大的 pd.merge()。它支持四种主要的合并逻辑：Inner Join（内连接）、Outer Join（外连接）、Left Join（左连接） 和 Right Join（右连接）。

准备工作：创建我们的示例数据

在深入各种连接类型之前，让我们先创建两个 DataFrame 作为实验对象。我们将使用一个简单的“学生信息”场景，这能帮助我们直观地理解数据的变化。

import pandas as pd
import numpy as np

# 左侧 DataFrame：包含学生的基础信息
# 我们定义了 Sr.no, Name 和 Roll No
df_students = pd.DataFrame({
    ‘Sr.no‘: [‘1‘, ‘2‘, ‘3‘, ‘4‘, ‘5‘],
    ‘Name‘: [‘Rashmi‘, ‘Arun‘, ‘John‘, ‘Kshitu‘, ‘Bresha‘],
    ‘Roll No‘: [‘1‘, ‘2‘, ‘3‘, ‘4‘, ‘5‘]
})

# 右侧 DataFrame：包含学生的兴趣和性别
# 注意：这里的 Sr.no 与左侧并不完全一致，这是为了演示合并的效果
df_details = pd.DataFrame({
    ‘Sr.no‘: [‘2‘, ‘4‘, ‘6‘, ‘7‘, ‘8‘],
    ‘Gender‘: [‘F‘, ‘M‘, ‘M‘, ‘F‘, ‘F‘],
    ‘Interest‘: [‘Writing‘, ‘Cricket‘, ‘Dancing‘, ‘Chess‘, ‘Sleeping‘]
})

print("学生基础信息表:")
print(df_students)
print("
学生详情表:")
print(df_details)

1. 内连接：寻找交集

Inner Join（内连接） 是最严格的一种合并方式。它就像是寻找两个集合的交集。从名字就可以理解，它只保留在左侧和右侧 DataFrame 中都存在的键的行。

简单来说，如果 INLINECODE890bc97a 中的某个学生在 INLINECODE466d6d01 中没有对应记录（或者反之），这名学生就会被剔除掉。

# 使用 how=‘inner‘ 执行内连接，基于 ‘Sr.no‘ 列
df_inner_merged = pd.merge(df_students, df_details, how=‘inner‘, on=‘Sr.no‘)

print("内连接结果:")
print(df_inner_merged)

结果解析：

你可以看到，只有 ID 为 2 和 4 的学生出现在了结果中。因为在原始数据中，只有这两个 ID 同时存在于两个表格中。ID 为 1, 3, 5 的学生因为没有详情数据，被过滤掉了；ID 为 6, 7, 8 的详情因为没有基础信息，也被过滤掉了。

2. 外连接：保留所有数据

当我们不想丢失任何信息时，Outer Join（外连接） 就派上用场了。它会返回左侧 DataFrame 的所有行和右侧 DataFrame 的所有行。

对于那些只在一边存在的记录，Pandas 会非常智能地用 NaN（Not a Number，即空值）来填充缺失的部分。这就像是一个“完全包容”的合并。

# 使用 how=‘outer‘ 执行外连接
df_outer_merged = pd.merge(df_students, df_details, how=‘outer‘, on=‘Sr.no‘)

print("外连接结果:")
print(df_outer_merged)

实战建议：

仔细观察输出结果。你会发现 ID 为 1 的学生，INLINECODEc16a1bc5 和 INLINECODEdbd580ee 列是空的（NaN）；而 ID 为 6 的记录，INLINECODEa9c0b071 是空的。在数据清洗阶段，我们通常会使用 INLINECODE21dee847 方法来处理这些空值，比如将缺失的兴趣标记为“未知”。

3. 左连接：以左为主

这是在实际工作中最常用的合并方式之一。Left Join（左连接） 会显示左侧 DataFrame（即第一个参数）的所有记录。

对于左侧表中的每一行，如果在右侧表中找到了对应的键，就合并数据。
如果找不到，右侧的数据列就会被填充为 NaN。

想象一下，你有一份核心的客户名单（左表），你想加上他们的最近购买记录（右表）。你肯定希望保留所有客户，即使他们最近没有购买，对吗？这就是左连接的应用场景。

# 使用 how=‘left‘ 执行左连接
df_left_merged = pd.merge(df_students, df_details, how=‘left‘, on=‘Sr.no‘)

print("左连接结果:")
print(df_left_merged)

结果分析：

在这个结果中，INLINECODE0ae8c5c7 的所有 5 名学生都在。但是 ID 为 1, 3, 5 的学生，因为不在 INLINECODE11ac8a06 中，所以他们的性别和兴趣显示为 NaN。这保证了我们不会丢失任何主体（学生）的信息。

4. 右连接：以右为主

Right Join（右连接） 的逻辑与左连接完全相反。它优先保留右侧 DataFrame 的所有记录。

无论第一个数据框中的键是否存在，只要第二个数据框里有，它就会显示。如果左表没有匹配，对应位置就是 NaN。

# 使用 how=‘right‘ 执行右连接
df_right_merged = pd.merge(df_students, df_details, how=‘right‘, on=‘Sr.no‘)

print("右连接结果:")
print(df_right_merged)

结果分析：

这里我们可以看到，结果包含了 INLINECODE286c3d66 中所有的 ID（2, 4, 6, 7, 8）。ID 为 6, 7, 8 的记录虽然不在左表中，但依然被保留了下来，只是 INLINECODEd84ab5fc 和 Roll No 为空。

进阶技巧：处理列名不一致

在上面的例子中，我们都使用了 INLINECODE51ad3e4f，这是因为两个表中的列名是一样的。但在现实世界中，情况往往更复杂。比如，一个表里叫 INLINECODE77a77217，另一个表里叫 user_id，我们该如何合并呢？

这就需要用到 INLINECODE37408746 和 INLINECODEa4ee15eb 参数了。

让我们稍微修改一下数据来演示这个场景：

# 这是一个非常实用的进阶示例
# 假设左侧表的键叫 ‘ID‘，右侧表的键叫 ‘Sr.no‘

left_df = pd.DataFrame({
    ‘ID‘: [‘1‘, ‘2‘, ‘3‘],
    ‘Name‘: [‘Alice‘, ‘Bob‘, ‘Charlie‘]
})

right_df = pd.DataFrame({
    ‘Sr.no‘: [‘2‘, ‘3‘, ‘4‘],
    ‘Score‘: [85, 90, 77]
})

# 我们指定左表基于 ‘ID‘，右表基于 ‘Sr.no‘ 进行合并
merged_df = pd.merge(left_df, right_df, left_on=‘ID‘, right_on=‘Sr.no‘, how=‘inner‘)

print(merged_df)

结果：

Pandas 会聪明地发现你想要对齐这两列。注意，结果中通常会同时包含 INLINECODE95941a04 和 INLINECODE2ec62624 这两列，因为它们在原始数据中名字不同。如果不想要多余的列，你可以使用 .drop() 方法将其删除。

性能优化与最佳实践

当你处理百万级甚至更大规模的数据时，合并操作可能会变得缓慢。以下是一些经验之谈：

键的类型一致性：确保用于合并的列在两个 DataFrame 中具有相同的数据类型（例如都是 INLINECODE6bf5cd9c 或都是 INLINECODE52e82455）。如果一个是整数，一个是字符串，Pandas 可能无法匹配，导致结果为空或报错。
索引合并：如果数据量非常大，将键设置为索引并使用 INLINECODEfaeb4150 方法有时会更快，但通常现代 Pandas 版本中 INLINECODE5dd1e3d9 的性能已经足够优秀。
减少列数：在合并之前，先使用 df[[‘col1‘, ‘col2‘]] 只选取你需要的列。合并包含大量无用列的表格会消耗大量内存。

总结

在这篇文章中，我们像搭积木一样，系统地拆解了 Pandas 中的 merge() 功能。我们了解到：

Inner Join 适合查找双方都拥有的严格匹配数据。
Outer Join 适合全面分析，不遗漏任何数据。
Left Join 是最常用的，用于保留主体数据的完整性。
Right Join 则用于特定场景下的反向补充。

掌握这四种合并方式，你就拥有了处理复杂关系型数据的能力。下一步，我建议你找一份包含多个表格的真实数据集（比如 Kaggle 上的电商数据），尝试用不同的键将它们串联起来。如果你在合并过程中遇到重复列名的问题，不妨探索一下 INLINECODEfb577d1d 参数（例如 INLINECODEec4921bd），它能帮你区分同名的列。

数据清洗和整合往往占据了数据科学家 80% 的时间，而熟练使用 merge 则是这段时间里最高效的捷径。祝你在数据探索的道路上越走越远！

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客