使用 Pyspark 解析 JSON 字符串列

2026-02-02 11:33:27 0条评论 2次阅读 0人点赞

在本文中，我们将讨论如何将包含 JSON 字符串的列解析为各自独立的列。在这里，我们将读取 CSV 文件中存在的 JSON 字符串，并使用 Python Pyspark 将其转换为多个 DataFrame 列。

示例 1：使用 pyspark.sql.functions.from_json 解析 JSON 字符串列

为了解析 JSON 字符串，我们将使用 from_json() SQL 函数，将包含 JSON 字符串的列解析为具有指定模式的 StructType。如果字符串无法解析，它将返回 null。

<a href=" https://github.com/rahulkriplani/gfgparseacolumnofjsonstring/blob/873ac3d26429a0133a685db591c65155e3db4149/data/movieinput.csv "> movieinput.csv 文件包含 15 条记录，其中包含以 JSON 字符串形式存在的电影详细信息（title、rating、releaseYear 和 genre）。我们想要读取这个文件并解析 JSON 字符串，以将电影细节提取到各自独立的列 title、rating、releaseYear 和 genre 中。

此函数需要两个必需参数：

col: 包含 JSON 字符串的列名。

schema: 解析 JSON 列时使用的 StructType 或 StructType 的 ArrayType。

Python3

CODEBLOCK_15fbc54b
输出：

!image

一旦我们将数据读入 DataFrame，现在让我们使用 from_json() 将 JSON 列转换为多列。如上所述，此函数将带有 JSON 字符串的列名和 JSON 模式作为参数，因此让我们创建代表我们数据的模式。

Python3

CODEBLOCK_547967ce

现在，让我们使用 from_json() 函数，它返回包含所有 JSON 列的 Column 结构体。

Python3

CODEBLOCK_89dd08ab
输出：

!image

最后，我们使用 select 方法展开（explode） json 结构体以将其展平。我们可以选择 movie.title、movie.rating 等列。但更好的方法是使用 * 通配符，它将选择所有具有 movie. 前缀的列。

Python3

CODEBLOCK_5498a32a
输出：

!image

示例 2：使用 tojson() 和 jsontuple() 解析 JSON 字符串列

为此，除了上述方法之外，我们还将使用 tojson() 和 jsontuple()。

首先，我们将借助 from_json() 函数将 JSON 字符串列映射为 MapType。

然后我们将 MapType 列转换为 JSON 字符串。如果 JSON 数据不正确，该函数将抛出异常。

最后，我们根据传递的字段名称为 JSON 列创建新列。

Python3

“

from pyspark.sql import SparkSession

import pyspark.sql.functions as F

import pyspark.sql.types as T

if name == "main":

spark = SparkSession.builder.appName(‘Parse a\

column of json strings‘).getOrCreate()

df = spark.createDataFrame(

[

["1","{‘color‘: ‘red‘, ‘value‘: ‘#f00‘}"],

["2","{‘color‘: ‘green‘, ‘value‘: ‘#0f0‘}"],

["3","{‘color‘: ‘blue‘, ‘value‘: ‘#00f‘}"],

["4","{‘color‘: ‘cyan‘, ‘value‘: ‘#0ff‘}"],

["5","{‘color‘: ‘magenta‘, ‘value‘: ‘#f0f‘}"],

["6","{‘color‘: ‘yellow‘, ‘value‘: ‘#ff0‘}"],

["7","{‘color‘: ‘black‘, ‘value‘: ‘#000‘}"],

]

).toDF(‘id‘, ‘colors‘)

df.show(truncate=False)

df.printSchema()

df = df.withColumn("colors",

F.from_json(df.colors,

T.MapType(T.StringType(),

T.StringType())))

df.show(truncate=False)

df.printSchema()

df = df.withColumn("colors", F.to_json(df.colors))

df.show(truncate=False)

df.printSchema()

df = df.select(‘id‘, F.json_tuple(F.col("colors"),

"color", "value")

).toDF(‘id‘, ‘color‘,

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。如需转载，请注明文章出处豆丁博客和来源网址。https://shluqu.cn/21611.html

点赞分享



打开微信“扫一扫”，打开网页后点击屏幕右上角分享按钮

0.00 平均评分 (0% 分数) - 0 票

< 上一篇

下一篇 >

相关文章美国1G带宽/1T流量高速vps $17.99/年

2026 前沿视角：深入解析自动驾驶中的卡尔...

深入浅出平衡二叉树：2026年视角下的Java...

C++ STL 中 map::upper_bound() 的深度解...

如何为单个 HTML 元素应用两个 CSS 类：从...

如何在 Linux 系统上安装与配置 GParted ...

深入解析：Python 中 psycopg2 与 SQLAlch...

2026视角下的程序实现：计算半圆面积与周...

B+ 树中的插入操作详解

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

使用 Pyspark 解析 JSON 字符串列

示例 1：使用 pyspark.sql.functions.from_json 解析 JSON 字符串列

示例 2：使用 tojson() 和 jsontuple() 解析 JSON 字符串列

相关文章美国1G带宽/1T流量高速vps $17.99/年