Python 实战指南：如何高效地将 XML 数据转换为 JSON 格式

2026-02-12 13:51:33 0条评论 90次阅读 0人点赞

在日常的软件开发和数据交互中，我们经常面临需要在不同的数据格式之间进行转换的场景。特别是在与遗留系统对接或处理复杂的配置文件时，我们经常会遇到 XML（可扩展标记语言）格式的数据。然而，对于现代的 Web 应用和 API 来说，JSON（JavaScript 对象表示法）往往是更受欢迎的选择，因为它更轻量且易于解析。

你可能会遇到这样的情况：从一个老旧的 SOAP 接口获取到了 XML 数据，但需要将其转化为 JSON 以便在前端 JavaScript 框架中使用，或者是为了存储到 NoSQL 数据库（如 MongoDB）中。在这篇文章中，我们将深入探讨如何使用 Python 来实现这一转换过程，不仅会介绍最基础的方法，还会分享一些处理复杂嵌套结构的实用技巧。

1 理解 XML 与 JSON 的核心差异
2 方法 1：使用 xmltodict —— 最推荐的“优雅”方式
3 方法 2：处理更复杂的场景 —— 属性与命名空间
4 方法 3：无依赖方案 —— 仅使用标准库
5 常见错误与调试建议
6 总结与后续步骤

理解 XML 与 JSON 的核心差异

在动手写代码之前，让我们先快速回顾一下这两种格式的特性，理解它们的差异有助于我们更好地处理转换过程中的细节。

JSON 是一种基于文本的数据交换格式，它轻量、人类可读，并且非常易于机器解析和生成。它使用键值对来组织数据，支持字符串、数字、布尔值、数组和对象等数据类型。
XML 则是一种具有自我描述性的标记语言。它通过标签来定义数据的结构，支持属性、命名空间和严格的类型定义。虽然 XML 比 JSON 更冗长，但它在某些需要复杂数据验证和元描述的场景下依然非常强大。

为什么我们需要转换？

通常，我们选择将 XML 转换为 JSON 是出于以下原因：

降低数据体积：JSON 的语法简洁，通常比 XML 占用的空间更小，在网络传输中更节省带宽。
前端友好：JSON 是 JavaScript 的原生格式，前端开发人员可以毫不费力地使用它，而 XML 则需要繁琐的 DOM 解析。
NoSQL 支持：现代文档型数据库（如 MongoDB）原生支持 JSON 格式，存储和查询都更加方便。

方法 1：使用 `xmltodict` —— 最推荐的“优雅”方式

虽然 Python 内置的 INLINECODE57099e9b 库可以解析 XML，但要将它手动转换为 JSON 字典格式通常需要编写大量的遍历代码。为了保持代码的简洁和可读性，我们将使用第三方库 INLINECODE4ac1a342。它能够将 XML 数据直接转换为 Python 字典对象，这使得我们结合 json 模块时游刃有余。

第一步：安装必要的库

首先，我们需要确保环境中已安装 xmltodict。你可以使用 pip 包管理器轻松安装：

pip install xmltodict

Python 自带的 json 模块通常不需要额外安装。

第二步：编写转换脚本

让我们通过一个完整的示例来演示整个过程。假设我们有一个名为 INLINECODE76d45f67 的文件，我们需要读取它，将其转换为字典，然后导出为 INLINECODEa770286f。

示例 XML 文件 (data.xml):


    
        101
        Alice
        Computer Science
    
    
        102
        Bob
        Mathematics

Python 转换代码：

import json
import xmltodict

def convert_xml_to_json(xml_file_path, json_file_path):
    """
    将 XML 文件转换为 JSON 文件
    """
    try:
        # 1. 打开并读取 XML 文件
        with open(xml_file_path, ‘r‘, encoding=‘utf-8‘) as xml_file:
            # 读取文件内容
            xml_content = xml_file.read()
            
            # 2. 使用 xmltodict 将 XML 字符串解析为 Python 字典
            # xmltodict.parse 是核心函数，它处理了 XML 标签到字典键的映射
            data_dict = xmltodict.parse(xml_content)
            
            # 打印中间结果以供调试（可选）
            # print(f"解析后的字典: {data_dict}")

        # 3. 将 Python 字典转换为 JSON 格式的字符串
        # ensure_ascii=False 保证中文字符不被转义为 Unicode 序列
        # indent=4 使生成的 JSON 文件具有缩进，更易读
        json_data = json.dumps(data_dict, ensure_ascii=False, indent=4)

        # 4. 将 JSON 字符串写入文件
        with open(json_file_path, ‘w‘, encoding=‘utf-8‘) as json_file:
            json_file.write(json_data)
            
        print(f"转换成功！JSON 文件已保存至: {json_file_path}")

    except FileNotFoundError:
        print(f"错误：找不到文件 {xml_file_path}")
    except Exception as e:
        print(f"发生未知错误: {e}")

# 调用函数
convert_xml_to_json(‘data.xml‘, ‘data.json‘)

代码深度解析

让我们深入分析一下上面的代码，看看它是如何工作的：

INLINECODEc28f7cf6: 我们使用了上下文管理器（INLINECODEbe626d82 语句）。这是处理文件的最佳实践，因为它可以确保文件在操作完成后（无论成功与否）都会被正确关闭，防止内存泄漏或文件锁定。
INLINECODEb830bbef: 这是整个过程的“心脏”。它接收一个 XML 字符串，并尝试将其映射为 Python 的字典结构。例如，XML 的属性（如 INLINECODE9374b92b）会被处理为字典中的特殊键（通常是 INLINECODEb95b1874），而标签内的文本会被处理为 INLINECODE17df39ac。
json.dumps():

* 我们使用 INLINECODE22774216（dump string）而不是 INLINECODE59aa9d71，因为我们首先将结果存储在内存变量中。

* INLINECODE317f1ab3：在处理中文数据时，这个参数非常重要。如果不加这个参数，中文字符“张三”可能会被转义成 INLINECODEd59a0acc，导致可读性下降。

* indent=4：这会生成“美化的 JSON”，方便人类阅读。如果是为了生产环境的高性能传输，可以去掉这个参数以生成压缩的 JSON。

方法 2：处理更复杂的场景 —— 属性与命名空间

在实际工作中，XML 文件往往不像上面的例子那么简单。它们可能包含属性、命名空间，或者列表结构。让我们看看如何处理这些棘手的问题。

处理 XML 属性

考虑下面的 XML，它包含了产品的属性信息：


    
        Smartphone
        699
        True

当我们使用 INLINECODE4c46a9e3 解析时，INLINECODE9301dba3 和 INLINECODEe354e11c 属性会被保存在特殊的 INLINECODEa1e5bc8e 前缀键中，而标签内容在 #text 键中。

代码示例：处理属性

import xmltodict
import json

xml_data = """

    
        Smartphone
    

"""

data_dict = xmltodict.parse(xml_data)

# 查看解析后的结构
print(json.dumps(data_dict, indent=4))

输出结果：

{
    "catalog": {
        "product": {
            "@id": "p101",
            "@category": "Electronics",
            "name": "Smartphone"
        }
    }
}

关键点： 我们可以看到 INLINECODE7548dfaf 代表了属性，这在后续的数据处理（例如在 JavaScript 或 Python 中提取值）时需要特别注意。你需要在代码中访问 INLINECODE314b5ec0 而不是 product[‘id‘]。

强制数组转换

XML 和 JSON 之间有一个著名的歧义问题：XML 没有原生的“数组”概念，只有重复的元素。而 JSON 区分“对象”和“数组”。

如果 XML 中只有一个 INLINECODEb0788b97 标签，INLINECODE880bfe75 可能会将其解析为一个字典。但如果有多个，它会解析为列表。这种不一致性在编程中可能会导致很多 Bug。

解决方案： 我们可以强制让特定的标签始终被解析为列表。

xml_data_single = """

    Alice

"""

# 默认解析
result_default = xmltodict.parse(xml_data_single)
# 结果是: {‘root‘: {‘student‘: {‘name‘: ‘Alice‘}}} (注意这里是 dict)

# 强制数组解析
result_array = xmltodict.parse(xml_data_single, force_lists=[‘student‘])
# 结果是: {‘root‘: {‘student‘: [{‘name‘: ‘Alice‘}]}} (注意这里是 list)

当你在编写一个健壮的转换脚本时，建议对于那些可能重复出现的标签，始终启用 INLINECODE14584265 参数，这样你的数据处理代码就可以直接使用循环（INLINECODE941dd9ea），而不需要先判断它是不是列表。

方法 3：无依赖方案 —— 仅使用标准库

如果你所处的环境受限于网络，无法安装第三方库（如 INLINECODE9e625047），或者你不想增加项目的依赖，我们依然可以使用 Python 内置的 INLINECODEc5edd0ee 来实现。虽然代码量会稍多，但它完全原生。

代码示例：原生解析与转换

import xml.etree.ElementTree as ET
import json

def elem_to_dict(elem):
    """
    递归函数，将 XML 元素及其子节点转换为字典
    """
    node = {}
    
    # 处理属性 (Attributes)
    # 属性会被添加到字典中，键名以 @ 开头以示区别
    for key, value in elem.attrib.items():
        node[f"@{key}"] = value
    
    # 处理子节点 (Children)
    # 如果元素没有子节点且没有属性，它是一个叶子节点，直接返回文本
    if not list(elem):
        return elem.text
    
    # 递归处理子节点
    for child in elem:
        child_data = elem_to_dict(child)
        
        # 处理重复标签的情况（转换为列表）
        if child.tag in node:
            if not isinstance(node[child.tag], list):
                node[child.tag] = [node[child.tag]]
            node[child.tag].append(child_data)
        else:
            node[child.tag] = child_data
            
    return node

# 示例使用
xml_string = """

    
        Charlie
        Admin
    

"""

# 解析 XML 字符串
root = ET.fromstring(xml_string)

# 转换根节点
# 注意：由于我们自定义的 elem_to_dict 可能忽略根标签名，这里手动封装一下
final_dict = {root.tag: elem_to_dict(root)}

# 输出 JSON
print(json.dumps(final_dict, indent=4))

这种方法的逻辑相对复杂，我们需要手动递归遍历树形结构，并处理列表的去重问题。但如果你的项目要求“零依赖”，这是一个非常可靠的解决方案。

常见错误与调试建议

在编写转换代码时，你可能会遇到以下问题，这里我们提供一些调试建议：

编码问题：这是最常见的问题。如果你的 XML 文件包含中文或特殊字符，打开文件时务必指定 INLINECODEc6e0892e。如果 JSON 输出中包含乱码，请检查 INLINECODE1332ea0d 的 ensure_ascii 参数。
文件过大导致内存溢出：上述方法都是将整个文件读入内存（DOM 解析）。如果你有几百 MB 或 GB 级别的 XML 文件，这种方法会导致程序崩溃。对于超大文件，你需要使用 INLINECODE1baab1a7 解析器或流式解析工具（如 INLINECODE9ac22093 的 iterparse），但这通常无法直接生成一个完整的 JSON 对象，可能需要按行生成 JSONL 格式。
INLINECODEc035c2f0 值的处理：如果 XML 标签是空的（例如 INLINECODE5e08fcdb），INLINECODEc993760b 可能会将其解析为 INLINECODEf17bdba0。在 JSON 中，这对应 INLINECODE3b2d7097。如果你的后端验证不接受 INLINECODE5a26d474，你可能需要在转换后添加一个清洗步骤，将 INLINECODE38f0d86d 替换为空字符串 INLINECODE577177d7。

总结与后续步骤

在这篇文章中，我们探讨了如何在 Python 中将 XML 转换为 JSON。我们首先了解了这两种格式的区别，然后介绍了最简单、最推荐的 xmltodict 库，提供了包含异常处理的完整代码示例。接着，我们深入研究了如何处理 XML 属性和强制数组转换这两个进阶话题。最后，我们也提供了一种不依赖第三方库的原生解决方案。

为了进一步提升你的技能，建议你尝试以下后续步骤：

尝试逆向转换：尝试编写一个 JSON 转回 XML 的脚本，这能帮你更深刻地理解数据结构的映射逻辑。
数据清洗：在转换过程中，尝试添加逻辑来过滤掉某些不需要的标签，或者重命名键名。
API 集成：尝试编写一个 Python 脚本，从一个公共的 XML API（比如天气数据接口）获取数据，将其转换为 JSON 后展示在命令行中。

希望这篇文章能帮助你更好地处理 Python 中的数据格式转换问题。祝你编码愉快！

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客

Python 实战指南：如何高效地将 XML 数据转换为 JSON 格式

理解 XML 与 JSON 的核心差异

为什么我们需要转换？

方法 1：使用 `xmltodict` —— 最推荐的“优雅”方式

第一步：安装必要的库

第二步：编写转换脚本

代码深度解析

方法 2：处理更复杂的场景 —— 属性与命名空间

处理 XML 属性

强制数组转换

方法 3：无依赖方案 —— 仅使用标准库

常见错误与调试建议

总结与后续步骤

相关文章美国1G带宽/1T流量高速vps $17.99/年

Python 实战指南：如何高效地将 XML 数据转换为 JSON 格式

理解 XML 与 JSON 的核心差异

为什么我们需要转换？

方法 1：使用 xmltodict —— 最推荐的“优雅”方式

第一步：安装必要的库

第二步：编写转换脚本

代码深度解析

方法 2：处理更复杂的场景 —— 属性与命名空间

处理 XML 属性

强制数组转换

方法 3：无依赖方案 —— 仅使用标准库

常见错误与调试建议

总结与后续步骤

相关文章美国1G带宽/1T流量高速vps $17.99/年

方法 1：使用 `xmltodict` —— 最推荐的“优雅”方式