深入解析 PySpark 数据清洗：掌握 dropna 的艺术与实践

2026-02-15 19:11:30 0条评论 3次阅读 0人点赞

在处理包含海量数据的大型数据集时，数据清洗是我们面临的最关键且最具挑战性的步骤之一。在现实世界的场景中，当我们从各种源头收集数据时，往往是不完整的。你肯定遇到过这样的情况：在一个包含数百万行和数千列的 DataFrame 中，某些行或列散布着大量的 NULL、None 或 NaN 值，甚至有些行完全就是空的。如果我们直接对这些“脏”数据进行聚合、连接或统计分析，不仅可能会导致计算结果不准确，甚至在某些复杂的转换操作中引发异常，导致整个作业失败。

为了从数据中提取真正有价值的洞察，我们必须对数据进行严格的清洗。在 PySpark 的生态系统中，最直接、最常用的方法就是丢弃那些包含缺失值的行或列。在本文中，我们将深入探讨如何使用 PySpark 中的 INLINECODEcbed520e 函数（也称为 INLINECODEa0f0cc4d transformation）来高效地清洗数据。我们将不仅限于简单的语法介绍，还会通过实际代码示例，详细剖析每个参数的行为，并分享在处理大规模数据时的最佳实践和性能优化建议。

理解 dropna() 函数的语法与核心参数

dropna() 是 PySpark DataFrame 中的一个 transformation 操作，用于过滤掉包含 null 值的数据。虽然它的基本用法看起来很简单，但要精通它，我们需要深入理解其内部逻辑和各个参数的组合使用。

其核心语法如下：

#### 语法

df.dropna(how="any", thresh=None, subset=None)

其中，df 是我们的 PySpark DataFrame 对象。

#### 参数深度解析

为了更好地掌握这个工具，让我们详细拆解每个参数的含义及其对数据清洗逻辑的影响：

how (可选参数)：

* 这是决定删除条件的字符串参数。它默认为 "any"。

* ‘any‘ (默认)：这是最严格的模式。如果某一行中有任何一个或多个字段的值为 NULL，整行都会被删除。这意味着只有那些所有指定列都“完美无缺”的行才会被保留下来。

* ‘all‘：这是一个相对宽松的模式。只有当某一行中所有字段的值全都是 NULL 时，该行才会被删除。如果一行中哪怕只有一个非 NULL 值，它也会被保留。

thresh (可选参数，整数)：

* 这个参数允许我们设置一个“阈值”，它提供了一种比 how 更细粒度的控制方式。

* 如果你设置了 INLINECODE7d6fc2f9，那么只有当某一行中非 NULL 值的数量小于 n 时，该行才会被删除。换句话说，这一行必须至少包含 INLINECODE0f06abe7 个非空值才能幸存。

* 注意：如果同时指定了 INLINECODEe31c6657 和 INLINECODEa76142a6，PySpark 会优先考虑 thresh 参数。

subset (可选参数，列表或字符串)：

* 这个参数让我们在特定的列范围内查找空值，而不是扫描整张表。

* 你可以传入一个列名的列表（例如 [‘name‘, ‘age‘]）或者单个列名（字符串）。

* 当指定了 INLINECODEc97c530e 后，INLINECODE7f2fd380 只会检查这些指定的列。如果 INLINECODE56975596 中的列满足了 INLINECODE245ff5d5 或 thresh 的条件，该行就会被删除。这对于我们只想关注关键字段（如主键或核心指标）完整性的场景非常有用。

准备工作：创建示例 DataFrame

为了演示 dropna 的各种用法，让我们首先创建一个包含各种空值情况的 PySpark DataFrame。我们将模拟一个简单的员工数据集，其中包含人为制造的“脏”数据。

# 导入必要的库
from pyspark.sql import SparkSession
from pyspark.sql.types import StructType, StructField, IntegerType, StringType

# 创建 SparkSession 的辅助函数
def create_session():
    spk = SparkSession.builder \
        .master("local") \
        .appName("DataCleaningExample") \
        .getOrCreate()
    return spk

if __name__ == "__main__":
    # 调用函数以创建 SparkSession
    spark = create_session()

    # 定义包含空值 的示例数据
    # 注意：Python 中的 None 在加载到 Spark 后会变为 null
    input_data = [
        (1, "Shivansh", "Data Scientist", "Noida"),      # 完整数据
        (2, None, "Software Developer", None),          # Name 和 City 为空
        (3, "Swati", "Data Analyst", "Hyderabad"),      # 完整数据
        (4, None, None, "Noida"),                       # Name 和 Job Profile 为空
        (5, "Arpit", "Android Developer", "Banglore"), # 完整数据
        (6, "Ritik", None, None),                       # Job Profile 和 City 为空
        (None, None, None, None)                        # 完全为空的一行
    ]
    
    # 定义 Schema 以确保类型安全
    schema = StructType([
        StructField("Id", IntegerType(), True),
        StructField("Name", StringType(), True),
        StructField("Job_Profile", StringType(), True),
        StructField("City", StringType(), True)
    ])

    # 调用函数以创建数据框
    df = spark.createDataFrame(input_data, schema)
    
    print("原始数据视图：")
    df.show(truncate=False)

在上面的代码中，我们特意构造了不同类型的数据缺失情况。运行 df.show() 后，你可以看到既有包含部分空值的行，也有包含全部空值的行。这为我们的后续演示提供了完美的对照。

示例 1：基础清洗 – 使用 `how="any"` 参数

这是最常见的数据清洗场景。在默认情况下，dropna() 就像是设置了一个严格的过滤器：只要一行中有任何一个字段的数据缺失，这一行就会被无情地剔除。这确保了后续分析所使用的数据在所有列上都是完整的。

#### 场景

假设我们的业务逻辑要求员工的姓名、职位和城市必须全部填写完整，否则该记录无效。

#### 代码实现

# 使用 how=‘any‘ 删除任何包含 NULL 值的行
# 这意味着只有那些所有列都有值的行才会被保留
cleaned_df_any = df.dropna(how="any")

print("使用 how=‘any‘ 清洗后的数据：")
cleaned_df_any.show(truncate=False)

#### 代码解析与结果

逻辑：函数会逐行扫描。第一行数据完整，保留。第二行数据中 INLINECODE52e5e8d3 和 INLINECODEe4e13a9d 为 INLINECODE9a214b72，触发删除条件。最后一行全是 INLINECODE41f1d467，当然也会被删除。
结果：在这个数据集中，只有 ID 为 1, 3, 5 的行会被保留下来。这是一种非常激进的数据清洗方式，虽然保证了数据质量，但可能会因为一两个非关键字段的缺失而损失大量数据。

示例 2：宽松清洗 – 使用 `how="all"` 参数

有时候，我们不想因为部分数据的缺失而丢弃整行。我们只关心那些完全没有任何信息的行。

#### 场景

在这个场景下，我们希望保留那些“哪怕只有一个字段有数据”的行。我们只删除那些完全是空的记录（可能是由于系统故障导致的插入失败）。

#### 代码实现

# 使用 how=‘all‘ 仅删除所有值均为 NULL 的行
cleaned_df_all = df.dropna(how="all")

print("使用 how=‘all‘ 清洗后的数据：")
cleaned_df_all.show(truncate=False)

#### 代码解析与结果

逻辑：Spark 会检查每一行的所有字段。只有当所有字段的值都为 null 时，才会删除该行。
结果：在我们的示例中，只有最后一行 (None, None, None, None) 会被删除。其他包含部分缺失信息的行（如 ID 2, 4, 6）都会被保留。这种方法在数据探索性分析（EDA）阶段非常有用，可以让我们最大限度地保留数据量。

示例 3：阈值清洗 – 使用 `thresh` 参数

thresh（threshold 的缩写）是数据清洗中最强大的参数之一，它允许我们基于“非空值的数量”来决定保留哪些行。

#### 场景

假设我们有一个规则：一行数据中至少要有 2 个非空字段，我们才认为这是一条有效的记录。这对于那些列非常多但稀疏的数据表非常有用。

#### 代码实现

# 使用 thresh=2 删除非 NULL 值少于 2 个的行
# 也就是说，这一行必须至少有 2 个字段有值，否则就会被删除
cleaned_df_thresh = df.dropna(thresh=2)

print("使用 thresh=2 清洗后的数据：")
cleaned_df_thresh.show(truncate=False)

#### 代码解析与结果

逻辑：对于每一行，Spark 会统计非空值的个数。如果 非空值个数 < thresh，则删除该行。
结果：

* ID 1: 有 4 个非空值 (>2) -> 保留。

* ID 6: INLINECODE79dae1e0 (Name) 是非空值，INLINECODEbdf93fb3 是 6 (非空值)。虽然 Job 和 City 为空，但非空值个数为 2 (>=2) -> 保留。

* ID 7 (全空): 非空值个数为 0 ( 删除。

这个参数给了我们极大的灵活性，让我们可以根据数据的“完整度”进行过滤，而不是简单的“有/无”判断。

示例 4：特定列清洗 – 使用 `subset` 参数

在实际工作中，我们通常只关注某些关键业务列（例如“主键”、“金额”、“日期”）是否为空，而忽略一些不太重要的描述性字段。

#### 场景

我们只关心员工的“城市”是否填写了。只要 City 列不为空，即使员工没有名字或职位，我们也保留这条记录（可能只是为了分析地区分布）。

#### 代码实现

# 使用 subset 参数，仅检查 ‘City‘ 列
# 只要 City 列不为 NULL，该行就会被保留
cleaned_df_subset = df.dropna(subset="City")

print("使用 subset=‘City‘ 清洗后的数据：")
cleaned_df_subset.show(truncate=False)

#### 代码解析与结果

逻辑：这里 INLINECODE7b2870cc 的眼睛只盯着 INLINECODE682e56d7 这一列。如果 INLINECODE9369e131 是 INLINECODE6302bfeb，整行删除；如果 INLINECODE26a79d6f 不是 INLINECODE4e71da2d，无论其他列（如 Name, Job_Profile）是什么样，都保留。
结果：ID 为 2, 6, 7 的行因为 City 为空而被删除。其余行保留。

进阶用法：INLINECODE06cda8f7 也接受列表。如果你传入 INLINECODE5392c4e1，那么只要 Name 或 JobProfile 中任意一个为空（配合默认的 INLINECODE3b21f901），该行就会被删除。

示例 5：组合拳 – 同时使用 INLINECODE1e60df82 和 INLINECODEc8489b44

这是最实用的进阶技巧，结合了列的筛选和数值阈值。

#### 场景

让我们设定一个复杂的条件：在 [‘Id‘, ‘Name‘, ‘City‘] 这三列中，我们要求至少有 2 个列必须是非空的。如果不满足，则删除该行。

#### 代码实现

# 组合使用 thresh 和 subset
# 检查 subset 中的列（Id, Name, City），要求非空值数量 >= 2
cleaned_df_combo = df.dropna(thresh=2, subset=["Id", "Name", "City"])

print("组合使用 thresh=2 和 subset=[‘Id‘, ‘Name‘, ‘City‘] 清洗后的数据：")
cleaned_df_combo.show(truncate=False)

#### 代码解析

逻辑：这里的“计数”范围被限制在了 INLINECODEf4d38f14 指定的三列内。它会忽略 INLINECODEd6ae39e6 列的状态。
实战意义：比如 INLINECODE7b2ce6e8 是可选填写的，我们不在乎它是否为空，但我们要求 INLINECODEf79e224d, INLINECODEa0af93bc, INLINECODE997357ce 这三个核心信息中至少有两个是完整的。这种精细的控制是处理复杂数据逻辑的关键。

实战中的最佳实践与常见陷阱

仅仅学会语法是不够的，作为大数据工程师，我们还需要考虑代码的效率和在实际业务中的表现。

#### 1. 避免过度清洗

很多新手容易犯的一个错误是滥用 INLINECODE2f69cd94。假设你有一张表有 100 列，其中 99 列都有值，只有 1 列是可选填写的备注。如果你直接使用 INLINECODE9cf673fd，所有备注为空的行都会被丢弃，这会导致数据量急剧减少，甚至丢失关键信息。

建议：始终先分析数据，明确哪些列是“必须不为空”的，使用 subset 参数针对这些关键列进行清洗，而不是全表清洗。

#### 2. 性能优化

INLINECODE67ba3d19 操作会触发 Spark 的 Job 执行，因为它需要扫描数据来确定哪些行是 null。在非常大的数据集上，频繁执行 INLINECODE1cbb9847 可能会消耗资源。

多次过滤 vs. 一次性过滤：尽量通过组合参数（如 INLINECODE0e6dd88e 和 INLINECODEfe8d8c41）一次性完成过滤，而不是连续调用多次 dropna。多次调用会导致多次全表扫描。
缓存：如果你需要对清洗后的数据进行多次操作，记得在 INLINECODE6aa88b6f 后调用 INLINECODE5a7b082f 或 df.persist()，以免每次 Action 都重新执行清洗逻辑。

#### 3. 填充 vs. 删除

有时候，删除数据并不是最好的选择。如果某些关键指标缺失，删除行会导致统计偏差。PySpark 还提供了 fillna() 函数，允许你用特定的值（如 0、平均值或字符串 "Unknown"）填充空值。

策略：

对于分类数据（如性别、地区），如果缺失比例高，考虑填充为 "Unknown" 而不是直接删除。
对于数值数据（如年龄、收入），如果缺失比例低，可以考虑用中位数填充；如果缺失比例高，可能需要删除该列或使用 dropna。

#### 4. 处理空字符串与 NULL

在 PySpark 中，INLINECODE6e0dbe2d (空字符串) 和 INLINECODE5c893abc 是两码事。INLINECODE380e5d4d 只会处理 INLINECODEa31576c7 值，不会删除空字符串。如果你的源数据质量较差，可能包含 INLINECODE2dd07a9d，你需要先用 INLINECODE79b035d0 结合 INLINECODE7de2e8d9 条件将其转换为 INLINECODE49fccebd，或者先进行 Trim 操作，然后再使用 dropna。

总结

在这篇文章中，我们全面地探讨了 PySpark 中 INLINECODEbde500ea 函数的使用方法。从基础的 INLINECODE27960256 到复杂的 INLINECODE8185ea80 与 INLINECODEc9cededc 组合，我们看到了这个函数虽然简单，但在处理脏数据时功能极其强大。

我们不仅要学会如何编写代码，更要学会何时使用哪种清洗策略。盲目的删除会让数据变得毫无价值，而精细的数据清洗则是数据科学成功的一半。下次当你面对杂乱无章的数据框时，不妨先停下来观察一下缺失值的分布，然后选择最合适的 dropna 参数组合，既能保证数据质量，又能最大限度地保留有价值的信息。

希望这篇文章能帮助你在 PySpark 的数据处理之路上更进一步！

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客

深入解析 PySpark 数据清洗：掌握 dropna 的艺术与实践

理解 dropna() 函数的语法与核心参数

准备工作：创建示例 DataFrame

示例 1：基础清洗 – 使用 `how="any"` 参数

示例 2：宽松清洗 – 使用 `how="all"` 参数

示例 3：阈值清洗 – 使用 `thresh` 参数

示例 4：特定列清洗 – 使用 `subset` 参数

示例 5：组合拳 – 同时使用 INLINECODE1e60df82 和 INLINECODEc8489b44

实战中的最佳实践与常见陷阱

总结

相关文章美国1G带宽/1T流量高速vps $17.99/年

深入解析 PySpark 数据清洗：掌握 dropna 的艺术与实践

理解 dropna() 函数的语法与核心参数

准备工作：创建示例 DataFrame

示例 1：基础清洗 – 使用 how="any" 参数

示例 2：宽松清洗 – 使用 how="all" 参数

示例 3：阈值清洗 – 使用 thresh 参数

示例 4：特定列清洗 – 使用 subset 参数

示例 5：组合拳 – 同时使用 INLINECODE1e60df82 和 INLINECODEc8489b44

实战中的最佳实践与常见陷阱

总结

相关文章美国1G带宽/1T流量高速vps $17.99/年

示例 1：基础清洗 – 使用 `how="any"` 参数

示例 2：宽松清洗 – 使用 `how="all"` 参数

示例 3：阈值清洗 – 使用 `thresh` 参数

示例 4：特定列清洗 – 使用 `subset` 参数