深入解析：如何高效解析 Python 中的嵌套 JSON 数据

2026-02-03 23:31:08 0条评论 65次阅读 0人点赞

在日常的 Python 开发工作中，我们经常需要与来自不同来源的数据打交道，而 JSON（JavaScript Object Notation）无疑是目前最流行的数据交换格式之一。无论是从 RESTful API 获取响应，还是读取复杂的配置文件，我们都会频繁地遇到 JSON。

然而，实际情况往往比教科书上的例子要复杂得多。你肯定遇到过这样的情况：拿到一份数据，发现它不是扁平的，而是像洋葱一样一层包着一层。这种“嵌套”的 JSON 结构如果处理不当，会让代码变得难以阅读且容易出错。在本文中，我们将深入探讨如何利用 Python 的原生能力以及强大的第三方库来优雅地解析嵌套 JSON。我们将从基础的键值访问开始，逐步深入到递归算法、半结构化数据的扁平化处理，最后分享一些实战中的性能优化建议和最佳实践。

1. 理解嵌套 JSON 的本质

在动手写代码之前，我们需要先明确什么是“嵌套 JSON”。简单来说，嵌套 JSON 指的是在一个 JSON 对象的内部，包含了另一个 JSON 对象或数组。

让我们看一个典型的嵌套结构示例：

{
  "user_id": 1001,
  "username": "jdoe",
  "profile": {
    "fullname": "John Doe",
    "age": 30,
    "address": {
      "street": "123 Python Lane",
      "city": "New York",
      "zipcode": "10001"
    }
  }
}

在这个例子中，INLINECODE3c10e1a1 是一个嵌套的对象，而 INLINECODE9bba8aa6 则是更深一层的嵌套。在 Python 中，INLINECODE67fc3ac9 模块会将这种结构转换为字典和列表的组合。我们的目标是能够精准地提取出 INLINECODEd22be6f9 或 zipcode 这样的深层字段。

2. 基础篇：使用内置 `json` 模块进行显式访问

处理嵌套数据最直接的方法就是利用 Python 的字典键访问机制。这是最基础也是最常用的方法，适用于结构固定且层级不深的数据。

核心思路： 先加载 JSON 字符串为字典，然后通过链式键名（Key Chaining）层层深入获取数据。

import json

# 模拟一个嵌套的 JSON 字符串
json_str = ‘‘‘
{
    "name": "Alice",
    "age": 28,
    "address": {
        "city": "San Francisco",
        "details": {
            "zipcode": "94105",
            "geo": {
                "lat": 37.7749
            }
        }
    }
}
‘‘‘

# 第一步：将 JSON 字符串解析为 Python 字典
data = json.loads(json_str)

# 第二步：使用链式索引访问嵌套数据
# 注意：每一层 [] 都是在深入下一级结构
name = data[‘name‘]
city = data[‘address‘][‘city‘]
zipcode = data[‘address‘][‘details‘][‘zipcode‘]
latitude = data[‘address‘][‘details‘][‘geo‘][‘lat‘]

print(f"用户: {name}")
print(f"城市: {city}")
print(f"邮编: {zipcode}")
print(f"纬度: {latitude}")

这种方法的优势在于简单直观， 但它有一个明显的缺点：如果数据结构不完全符合预期（例如某次 API 响应中缺少了 INLINECODEe4b9b320 字段），直接链式访问会抛出 INLINECODE92f82724，导致程序崩溃。为了代码的健壮性，我们通常会结合 .get() 方法来防御性地编写代码：

# 使用 .get() 方法安全地获取数据，避免 KeyError
# 如果 ‘geo‘ 不存在，则返回 None
latitude = data.get(‘address‘, {}).get(‘details‘, {}).get(‘geo‘, {}).get(‘lat‘)

if latitude:
    print(f"纬度是: {latitude}")
else:
    print("未找到地理坐标信息")

3. 进阶篇：递归遍历处理未知深度或动态结构

有时候，我们面临的挑战不仅仅是层级深，而是 JSON 的结构是动态的——我们可能不知道具体有多少层，或者我们需要查找特定 Key 的值而不管它藏在多深。

这时，递归就是我们手中的利器。我们可以编写一个函数，自动遍历整个 JSON 树，直到找到我们需要的数据，或者将整个结构“压平”成一个单层字典，方便后续查询。

让我们看看如何实现一个递归查找功能：

import json

data_str = ‘‘‘
{
    "school": {
        "name": "Tech High",
        "departments": {
            "science": {
                "head": "Mr. Smith"
            },
            "arts": {
                "head": "Ms. Jones"
            }
        }
    }
}
‘‘‘

data = json.loads(data_str)

def find_keys(json_obj, target_key):
    """
    递归地在 JSON 对象中查找所有匹配的 key
    并返回一个包含对应 value 的列表
    """
    results = []
    
    def _iterate(obj):
        # 如果是字典，遍历其 items
        if isinstance(obj, dict):
            for k, v in obj.items():
                if k == target_key:
                    results.append(v)
                # 如果值本身是字典或列表，继续递归
                if isinstance(v, (dict, list)):
                    _iterate(v)
        # 如果是列表，遍历其中的元素
        elif isinstance(obj, list):
            for item in obj:
                _iterate(item)
                
    _iterate(json_obj)
    return results

# 查找所有的 ‘head‘ 字段
heads = find_keys(data, ‘head‘)
print(f"所有部门主管: {heads}")

#### 递归扁平化

另一个常见的需求是将嵌套的 JSON 转换为单层字典（点号分隔键名），这对于数据录入或日志分析非常有用。

def flatten_json(y):
    """
    将嵌套字典转换为单层字典，键名用点号连接
    例如: {"a": {"b": 1}} -> {"a.b": 1}
    """
    out = {}

    def flatten(x, name=‘‘):
        if isinstance(x, dict):
            for a in x:
                # 递归调用，构建新的键名
                flatten(x[a], name + a + ‘.‘)
        elif isinstance(x, list):
            # 处理列表，通常我们会加上索引
            for i, a in enumerate(x):
                flatten(a, name + str(i) + ‘.‘)
        else:
            # 剔除末尾的点号，赋值
            out[name[:-1]] = x

    flatten(y)
    return out

complex_json = {
    "user": "Alice",
    "roles": ["admin", "editor"],
    "meta": {
        "login_count": 42,
        "last_login": "2023-10-01"
    }
}

flattened = flatten_json(complex_json)
print(flattened)
# 输出类似: {‘user‘: ‘Alice‘, ‘roles.0‘: ‘admin‘, ‘roles.1‘: ‘editor‘, ‘meta.login_count‘: 42, ...}

4. 数据分析篇：使用 `pandas.json_normalize` 处理半结构化数据

当你处理的数据不仅包含嵌套对象，还包含数组对象，并且最终目的是进行数据分析时，手动编写递归函数会显得力不从心。这时，Python 数据分析领域的王者——Pandas 库提供了极其强大的 json_normalize 函数。

json_normalize 可以轻松地将复杂的嵌套列表和字典转换为 Pandas DataFrame 或 Series，非常适合处理 API 返回的记录列表。

#### 场景：包含嵌套字段的员工列表

假设我们有以下 JSON 数据，包含了多名员工的信息，其中 INLINECODE285d63bb 是嵌套对象，INLINECODEd53a5964 是嵌套列表。

import pandas as pd
import json

json_data = ‘‘‘
[
  {
    "id": 1,
    "name": "Prajjwal",
    "info": {"age": 23, "dept": "IT"},
    "projects": ["Python", "Django"]
  },
  {
    "id": 2,
    "name": "Kareena",
    "info": {"age": 22, "dept": "HR"},
    "projects": ["Recruitment", "Policy"]
  }
]
‘‘‘

data = json.loads(json_data)

# 使用 json_normalize
# record_path 指定我们要展开的列表字段
# meta 指定我们要保留的元数据字段
df = pd.json_normalize(
    data, 
    record_path=[‘projects‘], 
    meta=[‘name‘, [‘info‘, ‘age‘], [‘info‘, ‘dept‘]]
)

print(df)

输出结果：

       0      name  info.age info.dept
0  Python  Prajjwal        23        IT
1  Django  Prajjwal        23        IT
2  Recruitment  Kareena        22        HR
3      Policy  Kareena        22        HR

解释：

INLINECODE2192415a：这个参数告诉 Pandas 我们想要将 INLINECODE8e914205 数组“炸开”（explode）。每个项目都会变成一行。
INLINECODE253bd5c7：这个参数确保在炸开数组的同时，我们仍然保留员工的其他信息（如姓名、年龄）。注意我们可以使用列表语法 INLINECODE41fbecf2 来从嵌套的 info 对象中提取字段。
这种方法非常适合数据清洗和预处理，让你能够直接在 Excel 鬁风格的表格中查看和处理嵌套数据。

5. 实战建议与常见陷阱

在实际项目中，解析 JSON 往往不会一帆风顺。以下是我们总结的一些经验和避坑指南：

#### A. 处理类型变异

API 有时很不靠谱，同一个字段在不同情况下返回的类型可能不同。例如，INLINECODE18984a48 有时是整数 INLINECODEbf797267，有时是字符串 INLINECODEca048650，有时甚至缺失（INLINECODEf5fa6ae8）。

解决方案： 在解析前进行类型检查。

val = data.get(‘user_id‘)
if val is not None:
    try:
        user_id = int(val)
    except ValueError:
        user_id = 0 # 默认值

#### B. 避免无限递归

在使用递归函数解析未知来源的 JSON 时，可能会遇到循环引用（虽然在纯 JSON 数据中较少见，但在 Python 对象转换后的字典中可能出现）。如果递归深度过大，还会触发 Python 的最大递归深度限制 (RecursionError)。

解决方案： 设置递归深度限制或使用迭代式栈结构代替递归。

import sys

# 增加递归深度限制（谨慎使用）
sys.setrecursionlimit(2000)

#### C. 性能考量

json.loads() 对于大文件来说速度很快，因为它是用 C 写的。但是，如果你在一个巨大的 JSON 文件中只想要一个小字段，加载整个文件到内存可能不是最高效的。

建议： 如果文件非常大（几百 MB 或 GB），考虑使用流式解析库，如 ijson。它允许你在不将整个文件读入内存的情况下进行解析。

import ijson

# 流式读取大文件
with open(‘large_file.json‘, ‘rb‘) as f:
    # 只迭代解析需要的 objects
    for user in ijson.items(f, ‘users.item‘):
        print(user[‘name‘])

总结

在这篇文章中，我们探讨了在 Python 中处理嵌套 JSON 的多种策略。

对于简单的、已知结构的数据，直接使用 字典键访问 或 .get() 是最快的方法。
对于结构复杂、深度未知或需要特定搜索的场景，编写 递归函数 能够提供最大的灵活性。
对于需要进行数据分析的复杂列表和记录，利用 Pandas 的 json_normalize 可以极大地简化数据清洗的过程。

希望这些方法能帮助你更自信地应对工作中遇到的复杂数据挑战。掌握这些工具，你就拥有了将混乱的原始数据转化为结构化信息的能力。下一步，不妨尝试在自己的项目中重构一段陈旧的 JSON 解析代码，看看是否能用这里学到的方法让它变得更简洁、更健壮。

祝编码愉快！

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客

深入解析：如何高效解析 Python 中的嵌套 JSON 数据

1. 理解嵌套 JSON 的本质

2. 基础篇：使用内置 `json` 模块进行显式访问

3. 进阶篇：递归遍历处理未知深度或动态结构

4. 数据分析篇：使用 `pandas.json_normalize` 处理半结构化数据

5. 实战建议与常见陷阱

总结

相关文章美国1G带宽/1T流量高速vps $17.99/年

深入解析：如何高效解析 Python 中的嵌套 JSON 数据

1. 理解嵌套 JSON 的本质

2. 基础篇：使用内置 json 模块进行显式访问

3. 进阶篇：递归遍历处理未知深度或动态结构

4. 数据分析篇：使用 pandas.json_normalize 处理半结构化数据

5. 实战建议与常见陷阱

总结

相关文章美国1G带宽/1T流量高速vps $17.99/年

2. 基础篇：使用内置 `json` 模块进行显式访问

4. 数据分析篇：使用 `pandas.json_normalize` 处理半结构化数据