如何使用 Python 高效合并多个 JSON 文件：从入门到实践指南

2026-02-04 18:22:35 0条评论 3次阅读 0人点赞

在数据驱动开发的世界里，我们经常面临着处理分散数据的挑战。想象一下，你手头有一堆散落在不同文件中的 JSON 数据，无论是爬虫抓取的日志、分片存储的用户记录，还是每日生成的配置快照，你的任务是将它们整合成一个统一的 JSON 文件以便于后续分析。

在这篇文章中，我们将深入探讨如何使用 Python 的强大功能来实现这一目标。我们不仅要介绍基础的 INLINECODEf8174961 模块用法，还会探索结合 INLINECODE8a128c4f、INLINECODE403e8a99 甚至 INLINECODE593743d8 的高级技巧。我们还将一起解决开发中可能遇到的编码问题、文件路径陷阱以及性能优化瓶颈。无论你是处理两个文件还是两千个文件，相信看完这篇文章，你都能找到最适合自己的解决方案。

准备工作：认识我们的测试数据

为了演示合并过程，让我们先定义两个简单的 JSON 文件作为测试样本。这将帮助我们清楚地看到数据是如何被组合在一起的。

文件 1: f.json

{"key1": "value1"}

文件 2: s.json

{"key2": "value2"}

我们的目标是将这两个文件的内容合并到一个新的 JSON 文件中。最直观的合并结果是将它们作为一个列表包含在内，或者是将字典合并（如果键不冲突的话）。在接下来的示例中，我们将主要展示将它们合并为列表的形式，因为这是处理结构化数据最通用、最安全的方式。

—

方法一：使用 json 模块进行基础合并

让我们从最基础的方法开始。Python 内置的 json 模块是我们处理 JSON 数据的基石。在这个场景中，我们需要做三件事：打开文件、读取数据、将数据存入列表，最后写入新文件。

这种方法的逻辑非常清晰：初始化一个空列表，遍历文件路径，将每个文件的内容追加到列表中。

import json

def merge_json_files(file_paths, output_file):
    """
    合并多个 JSON 文件并将其写入一个输出文件。
    
    参数:
        file_paths (list): 需要合并的 JSON 文件路径列表。
        output_file (str): 输出的合并文件名。
    """
    merged_data = []
    
    # 遍历所有输入文件
    for path in file_paths:
        try:
            # 以读模式打开文件，自动处理文件关闭
            with open(path, ‘r‘, encoding=‘utf-8‘) as file:
                # 解析 JSON 数据
                data = json.load(file)
                # 将数据追加到合并列表中
                merged_data.append(data)
        except FileNotFoundError:
            print(f"警告: 文件 {path} 未找到，已跳过。")
        except json.JSONDecodeError:
            print(f"警告: 文件 {path} 不是有效的 JSON 格式，已跳过。")
            
    # 将合并后的数据写入输出文件
    # indent=4 用于美化输出，ensure_ascii=False 保证中文正常显示
    with open(output_file, ‘w‘, encoding=‘utf-8‘) as outfile:
        json.dump(merged_data, outfile, indent=4, ensure_ascii=False)

# 定义文件路径列表
file_paths = ["f.json", "s.json"]
output_file = "merged.json"

# 执行合并函数
merge_json_files(file_paths, output_file)

print(f"合并完成！数据已写入到 ‘{output_file}‘")

代码工作原理解析：

在这个函数中，我们使用了 Python 强大的文件上下文管理器（INLINECODEd2bce32c），这能确保即使在读取过程中发生错误，文件也能被正确关闭。此外，我们加入了异常处理机制（INLINECODE6b503923），这在实际生产环境中至关重要，因为它可以防止因为一个坏文件导致整个程序崩溃。

预期输出 (merged.json):

[
    {
        "key1": "value1"
    },
    {
        "key2": "value2"
    }
]

—

方法二：利用列表推导式简化代码

如果你追求代码的简洁性，Python 的列表推导式是你的好帮手。我们可以将读取文件、解析 JSON 和构建列表的逻辑浓缩到一行代码中。这种方法非常适合处理逻辑简单且不需要复杂错误处理的场景。

import json

def merge_json_files_compact(file_paths, output_file):
    """
    使用列表推导式快速合并 JSON 文件。
    """
    # 列表推导式：在一行内完成读取和解析
    # 注意：这里为了简洁省略了错误处理，实际生产中需谨慎
    merged_data = [json.load(open(path, ‘r‘, encoding=‘utf-8‘)) for path in file_paths]
    
    # 写入文件
    with open(output_file, ‘w‘, encoding=‘utf-8‘) as outfile:
        json.dump(merged_data, outfile, indent=4)
    
    return merged_data

# 模拟更多的文件路径
file_list = ["f.json", "s.json", "e.json", "t.json"]
output = "merged_compact.json"

# 执行并获取结果
result = merge_json_files_compact(file_list, output)
print(f"使用列表推导式合并后的数据: {result}")

实用见解：

虽然这种方法非常“Pythonic”，但在处理大量文件时，频繁地使用 open() 而不使用上下文管理器可能会导致文件描述符泄露的风险。在脚本结束前，Python 的垃圾回收机制通常会关闭这些文件，但在长时间运行的服务中，这并不是最佳实践。因此，推荐在确定文件数量较少且脚本生命周期短时使用。

—

方法三：结合 os 模块遍历目录合并

在实际工作中，我们通常不会手动列出所有文件名，而是希望 Python 能自动扫描某个目录下的所有 JSON 文件。这时候，INLINECODE20efd0d7 模块就派上用场了。通过 INLINECODE3855d2d8，我们可以获取目录中的所有文件名，并通过后缀名过滤出 JSON 文件。

import json
import os

def merge_json_in_directory(directory_path, output_file):
    """
    扫描指定目录下的所有 JSON 文件并合并。
    """
    merged_data = []
    
    # 遍历目录下的所有文件
    for filename in os.listdir(directory_path):
        # 检查文件是否以 .json 结尾
        if filename.endswith(‘.json‘):
            # 拼接完整的文件路径
            file_path = os.path.join(directory_path, filename)
            
            try:
                with open(file_path, ‘r‘, encoding=‘utf-8‘) as file:
                    data = json.load(file)
                    merged_data.append(data)
                    print(f"成功处理文件: {filename}")
            except Exception as e:
                print(f"处理文件 {filename} 时出错: {e}")
                
    # 写入合并后的数据
    with open(output_file, ‘w‘, encoding=‘utf-8‘) as outfile:
        json.dump(merged_data, outfile, indent=4)
        
    return merged_data

# 假设我们有一个名为 ‘data_files‘ 的文件夹
directory = "./data_files"
output_filename = "merged_from_dir.json"

# 为了运行这个例子，我们先确保文件夹存在（实际使用中请确保路径正确）
if os.path.exists(directory):
    final_data = merge_json_in_directory(directory, output_filename)
    print(f"目录扫描完成，共合并了 {len(final_data)} 个文件。")
else:
    print(f"目录 {directory} 不存在，请先创建它并放入一些 JSON 文件。")

深入讲解：

这里的关键函数是 INLINECODE2a140b1f。在编写跨平台脚本时，直接拼接字符串（如 INLINECODE1a335c0f）是不推荐的，因为 Windows 使用反斜杠 INLINECODE046cd12e 而Unix/Linux 使用正斜杠 INLINECODE2af32272。使用 os.path.join 可以自动处理这些差异，让你的代码在任何操作系统上都能稳健运行。

—

方法四：使用 glob 模块进行模式匹配

如果你觉得 INLINECODEdf299adf 模块还需要手动判断文件后缀有点麻烦，那么 INLINECODE1001cc63 模块绝对会让你惊喜。INLINECODE65dd5cc2 支持 Unix 风格的通配符，可以让你像在命令行中一样查找文件（例如 INLINECODEc4e23533）。这让代码的可读性和简洁性都更上一层楼。

import json
import glob

def merge_with_glob(pattern, output_file):
    """
    使用 glob 模式匹配获取文件并合并。
    
    参数:
        pattern (str): 文件匹配模式，如 "./data/*.json"
        output_file (str): 输出文件路径
    """
    merged_data = []
    
    # 获取所有匹配的文件路径列表
    # glob.glob 返回的是一个包含所有匹配文件路径的列表
    file_paths = glob.glob(pattern)
    
    print(f"找到 {len(file_paths)} 个匹配的 JSON 文件...")
    
    for path in file_paths:
        try:
            with open(path, ‘r‘, encoding=‘utf-8‘) as file:
                data = json.load(file)
                merged_data.append(data)
        except Exception as e:
            print(f"无法读取 {path}: {e}")
            
    # 写入结果
    with open(output_file, ‘w‘, encoding=‘utf-8‘) as outfile:
        json.dump(merged_data, outfile, indent=4)
        
    return merged_data

# 使用示例：查找当前目录下 files 文件夹内的所有 json
search_pattern = "./files/*.json"
output_result = "merged_glob.json"

data = merge_with_glob(search_pattern, output_result)
print(f"Glob 合并完成。结果预览: {data}")

实战经验分享：

INLINECODE20ffbb20 模块不仅限于简单的 INLINECODEcdd1d7dc。如果你的文件有特定的命名规范，比如 data_2023_*.json，你甚至可以只合并特定年份的文件。这给了我们极大的灵活性，使得合并特定批次的文件变得轻而易举。

—

进阶方法五：使用 Pandas 库进行数据合并

如果你的 JSON 文件包含结构化非常强的数据（比如都是相同格式的用户信息列表），那么使用 pandas 库可能是最高效的。Pandas 提供了强大的数据处理能力，能让我们轻松地将多个文件合并为一个 DataFrame，然后再导出为 JSON 或 CSV。

这种方法特别适合需要进行数据清洗或筛选的场景。

import pandas as pd
import glob

def merge_with_pandas(pattern, output_file):
    """
    使用 Pandas 读取多个 JSON 文件并合并。
    注意：这里假设每个 JSON 文件包含一个记录或一个列表。
    """
    data_list = []
    
    # 获取文件列表
    files = glob.glob(pattern)
    
    for file in files:
        try:
            # 读取 JSON 文件
            # lines=True 参数常用于处理 JSON Lines 格式，或者单个 JSON 对象
            df = pd.read_json(file, lines=False) 
            data_list.append(df)
        except ValueError as e:
            # 有些 JSON 可能是单行记录，需要转换处理
            try:
                with open(file, ‘r‘, encoding=‘utf-8‘) as f:
                    data = json.load(f)
                    # 如果是字典，包装成列表以便转换
                    if isinstance(data, dict):
                        data_list.append(pd.DataFrame([data]))
                    elif isinstance(data, list):
                        data_list.append(pd.DataFrame(data))
            except Exception as parse_error:
                print(f"Pandas 无法解析文件 {file}: {parse_error}")

    # 如果没有数据，直接返回
    if not data_list:
        print("没有找到可合并的数据。")
        return

    # 使用 pd.concat 串联所有 DataFrame
    # ignore_index=True 会重置索引，防止索引冲突
    merged_df = pd.concat(data_list, ignore_index=True)
    
    # 将合并后的 DataFrame 导出为 JSON
    # orient=‘records‘ 会将 DataFrame 转换为 JSON 对象的列表
    merged_df.to_json(output_file, orient=‘records‘, indent=4, force_ascii=False)
    
    print(f"Pandas 合并成功！共 {len(merged_df)} 条记录。已保存至 {output_file}。")
    return merged_df

# 示例调用
pandas_pattern = "./files/*.json"
output_pandas = "merged_pandas.json"
df_result = merge_with_pandas(pandas_pattern, output_pandas)

为什么使用 Pandas？

虽然 Pandas 对于简单的合并任务来说有点“杀鸡用牛刀”，但在面对结构化数据时，它能自动处理列对齐、缺失值填充和类型转换。如果你的最终目的是进行数据分析，直接在 Pandas 中合并数据可以省去后续重新加载数据的步骤。

—

常见陷阱与最佳实践

在我们掌握了多种方法后，我想分享一些在实际开发中容易踩的“坑”以及相应的解决方案。了解这些能让你从“会写代码”进阶到“写出健壮的代码”。

#### 1. 编码问题

在 Windows 系统上，默认的文件编码可能是 INLINECODE68ea6d61，而 JSON 标准推荐使用 INLINECODE66890a62。如果你在读取文件时遇到 UnicodeDecodeError，通常是因为编码不匹配。

解决方案： 始终在 INLINECODEa2c1e965 函数中显式指定 INLINECODE795253e5。这能保证你的代码在 Linux 服务器和 Windows 开发机上行为一致。

#### 2. 内存管理

如果你要合并的 JSON 文件总大小达到了几个 GB，使用简单的列表追加（merged_data.append）可能会导致内存溢出（OOM），因为所有数据都被加载到了 RAM 中。

解决方案： 对于超大文件，可以考虑逐个流式写入文件，而不是先合并再写入。或者使用生成器来处理数据。另一个简单的方法是先将文件路径合并到一个文本文件，再按需读取。

#### 3. 键冲突与数据覆盖

当你尝试将多个 JSON 对象（字典）合并成一个字典，而不是合并成一个列表时，如果不同的文件中有相同的键，后读取的文件会覆盖前面的值。

解决方案： 明确你的合并策略。是想要“列表追加”（保留所有记录）还是“字典更新”（覆盖旧值）。上面的代码主要采用了列表追加策略，这在数据集成中通常是最安全的。

#### 4. 文件路径的正确拼接

正如我们在 INLINECODE80dacb2f 模块部分所讨论的，硬编码路径分隔符（INLINECODE8f793f8a）是代码难以移植的主要原因之一。

最佳实践： 始终使用 INLINECODE43cf5d18 或 Python 3.4+ 的 INLINECODE866ddaf8 模块（Path("folder") / "file.json"）来处理路径。

性能优化建议

如果你的任务是合并数百万个小文件，Python 的循环开销可能会变得显著。在这种情况下，你可以考虑以下优化：

使用多线程/多进程：concurrent.futures 模块可以并行读取文件，因为 I/O 操作通常是瓶颈，并行读取可以显著减少总时间。
批量写入：尽量减少磁盘写入次数，一次性将所有合并好的数据写入磁盘，而不是每读一个文件就写一次。

总结

在这篇文章中，我们探讨了五种不同的方法来合并多个 JSON 文件，从最基础的 INLINECODEd29aa44a 模块到功能强大的 INLINECODE68d69232 库。我们还学习了如何结合 INLINECODE071f90bb 和 INLINECODEf757dd53 模块来自动化文件查找过程，并深入讨论了编码、内存管理和错误处理等关键问题。

选择哪种方法取决于你的具体需求：

简单任务：选择 方法一 或 方法二（列表推导式）。
文件夹批量处理：选择 方法三 或 方法四（glob）。
数据分析需求：选择 方法五（Pandas）。

希望这篇指南能帮助你更自信地处理 Python 中的 JSON 数据合并任务。试着在你的项目中应用这些技巧，你会发现数据处理其实可以非常优雅！

如果你有任何疑问或想要探讨更复杂的合并场景，欢迎随时交流。祝编码愉快！

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客