Python Pandas 实战指南：深入理解 DataFrame.notna() 方法

2026-02-13 22:09:09 0条评论 83次阅读 0人点赞

在处理实际数据时，数据不完整（即存在缺失值）是数据分析师和科学家面临的最常见挑战之一。这些缺失值可能源于人工录入错误、传感器故障或数据传输过程中的各种问题。如果我们在进行数据分析前不正确识别和处理这些“空洞”，我们的计算结果可能会产生偏差，甚至导致程序崩溃。

在这篇文章中，我们将深入探讨 Pandas 库中一个非常有用的方法——dataframe.notna()。我们将一起学习如何使用它来检测非缺失值，它在底层是如何工作的，以及如何在实际项目中有效地应用它。无论你是刚刚开始学习 Python 数据分析，还是希望巩固基础知识的开发者，这篇文章都将为你提供实用的见解和最佳实践。

什么是 notna()？

Pandas 为我们提供了强大的数据结构 INLINECODE278778b9，而 INLINECODE65117b6a 是其实例方法之一。简单来说，这个函数用于检测数据中“现存的”值（即非缺失值）。

当我们调用这个函数时，它会返回一个与原 DataFrame 形状完全相同的布尔值对象。在这个返回的结果中：

True：表示该位置上的值是有效的（非缺失的）。
False：表示该位置上的值是缺失的（即 NA 值，如 INLINECODE781778e1 或 INLINECODEb03bae04）。

它是 INLINECODE184e2bae 或 INLINECODE83db19c8 方法的反面操作。理解这一点非常重要：INLINECODE380ddb3b 等同于 INLINECODE33fc8bca。

#### 一个重要的技术细节

在使用 Pandas 时，我们需要注意“空”的定义。像空字符串 INLINECODE588ea7c6 或者 INLINECODE1453fcdf（无穷大）这样的字符，默认是不被视为 NA 值的（除非你显式地设置了 pandas.options.mode.use_inf_as_na = True）。这是一个常见的陷阱，我们稍后会在文章中详细讨论。

> 语法速查：

> DataFrame.notna()
>

> 返回值： 返回一个由布尔值组成的 DataFrame，用于指示原始元素中哪些不是 NA 值。

—

示例 #1：在完美的数据集中检测非缺失值

让我们从一个简单的场景开始。假设我们有一份非常干净、没有任何缺失值的数据集。在这种情况下，notna() 会发生什么呢？

让我们看看下面的代码：

# 导入 pandas 库，并将其简写为 pd
import pandas as pd

# 创建第一个数据框
# 这里我们手动定义了一些简单的数值数据
df = pd.DataFrame({"A":[14, 4, 5, 4, 1],
                   "B":[5, 2, 54, 3, 2], 
                   "C":[20, 20, 7, 3, 8],
                   "D":[14, 3, 6, 2, 6]})

# 打印原始数据框
print("原始数据框：")
print(df)

# 使用 dataframe.notna() 函数来查找所有非缺失值
result = df.notna()

print("
非缺失值检测结果：")
print(result)

结果解读：

正如你在输出中看到的，原始数据框中所有的单元格都被填满了数字。当我们应用 INLINECODE47baed03 函数时，返回的 DataFrame 中每一个位置的值都是 INLINECODE41dbf4bb。这验证了我们的数据集是完整的，没有任何缺失值。这对于数据质量检查是一个很好的初步验证手段。

—

示例 #2：处理包含缺失值（None/NaN）的现实数据

在现实世界中，数据很少是完美的。让我们通过引入 INLINECODE7d33e3d2 值来模拟真实的数据缺失情况。这次我们来看看 INLINECODE0fc987a6 如何区分有效数据和无效数据。

请看下面的代码示例：

# 导入 pandas as pd
import pandas as pd
import numpy as np # 导入 numpy 以便使用 NaN

# 创建一个包含缺失值的数据框
# 注意：我们在列 A, B 和 D 中手动插入了 None (或者 np.nan)
df = pd.DataFrame({"A":[12, 4, 5, None, 1],
                   "B":[7, 2, 54, 3, None], 
                   "C":[20, 16, 11, 3, 8],
                   "D":[14, 3, None, 2, 6]},
                   # 为了兼容性，有时 Pandas 会自动将 None 转换为 NaN
                   dtype=float) 

# 查找非缺失值
print("原始数据（包含缺失值）：")
print(df)

print("
使用 notna() 检测后的结果：")
df.notna()

结果解读：

观察输出结果，我们可以清楚地看到 notna() 的威力：

原始数据框中含有 INLINECODEab823205 或 INLINECODEc4c40354 的单元格（例如 A 列的第 4 行，D 列的第 3 行）在结果中被映射为了 False。
所有其他含有具体数字的单元格则被映射为了 True。

这种布尔掩码是 Pandas 中进行数据过滤的核心机制。

—

实战应用：如何利用 notna() 过滤数据

仅仅看到一个由 INLINECODE4b15cd67 和 INLINECODEec26d46a 组成的表格可能看起来很枯燥，但它是更强大操作的基础。我们可以利用这个布尔结果来过滤掉行或列中的缺失数据。

#### 场景 1：只保留“有效”的行

假设我们有一份用户调查数据，我们只想分析那些在“年龄”和“收入”字段都填写了完整信息的用户。我们可以结合 notna() 和布尔索引来实现这一点。

# 构建一个包含用户信息的模拟数据框
data = {
    "Name": ["Alice", "Bob", "Charlie", "David", "Eva"],
    "Age": [25, 30, None, 40, 22],
    "Income": [50000, None, 60000, 80000, 45000]
}
df_users = pd.DataFrame(data)

print("原始用户数据：")
print(df_users)

# 目标：我们只想保留 Age 和 Income 都不为空的用户记录

# 步骤 1：检查 Age 的非缺失情况
age_valid = df_users[‘Age‘].notna()

# 步骤 2：检查 Income 的非缺失情况
income_valid = df_users[‘Income‘].notna()

# 步骤 3：使用逻辑与 (&) 组合条件，过滤数据框
# 只有当 Age 和 Income 都是 True 时，该行才会被保留
valid_users = df_users[ age_valid & income_valid ]

print("
过滤后的有效用户数据：")
print(valid_users)

实用见解： 这是一个非常常用的操作，通常被称为“列表删除”的一种替代方案。与 INLINECODE313b0d41 不同的是，使用 INLINECODE9a869734 让我们对过滤逻辑拥有更精细的控制权。

—

进阶技巧：标量值与 Series 的 notna()

notna() 不仅可以用于整个 DataFrame，也可以用于单独的列或单个值。

# 示例：检查单个标量值
import pandas as pd
import numpy as np

val1 = 100
val2 = np.nan

print(f"值 {val1} 是否非缺失？ {pd.notna(val1)}") # 输出 True
print(f"值 {val2} 是否非缺失？ {pd.notna(val2)}") # 输出 False

# 示例：检查 Series
s = pd.Series([1, 2, np.nan, 4, None])
print("
Series 的非缺失检测结果：")
print(s.notna())

这在编写自定义函数或处理循环逻辑时非常有用。

—

常见陷阱与注意事项

正如我们在开头提到的，空字符串的处理是一个常见的误区。让我们通过一个例子来看看为什么这很重要。

# 创建包含不同类型"空"值的数据框
df_tricky = pd.DataFrame({
    "ID": [1, 2, 3, 4],
    "Comment": ["Hello", "", "World", None], # "" 是空字符串，None 是标准缺失值
    "Score": [90, np.nan, 85, 72]
})

print("原始数据：")
print(df_tricky)

# 使用 notna() 检查 Comment 列
print("
Comment 列的 notna() 结果：")
print(df_tricky[‘Comment‘].notna())

结果分析：

你可能会惊讶地发现，ID 为 2 的那一行（Comment 是空字符串 INLINECODEce6364fb），INLINECODE46e6afc3 返回的是 True。

为什么会这样？

因为 Pandas 默认将空字符串视为一个有效的、存在的值（尽管它看起来是空的）。而 INLINECODEb6ea5ae5 或 INLINECODEc48a5da8 则被视为统计上的“不存在”。

如何解决这个问题？

如果你希望将空字符串也当作缺失值处理，你必须先进行替换：

# 将空字符串替换为标准的 NaN，然后再检查
df_tricky_replace = df_tricky.replace(r‘^\s*$‘, np.nan, regex=True)
print("
将空字符串替换为 NaN 后的检测结果：")
print(df_tricky_replace[‘Comment‘].notna())

—

性能优化建议

当处理大型数据集时（例如数百万行），高效的内存使用和计算速度至关重要。

尽量使用原位操作： notna() 本身是一个轻量级操作，因为它只查看内存指针而不复制数据本身（返回的是布尔视图）。这是非常高效的。
避免循环： 永远不要遍历 DataFrame 的行来手动检查 INLINECODEdecf8020。这比直接使用 INLINECODEd17ec4a1 慢几个数量级。Pandas 的底层是 C 语言优化的，利用向量化操作是最佳实践。
内存占用： 如果你的 DataFrame 非常巨大，返回的布尔掩码也会占用大量内存。如果你只是想计算缺失值的数量，使用 INLINECODE2818d752 可能比生成一个完整的 INLINECODE11334cac 矩阵并存储它更节省内存（尽管计算过程中仍会生成临时对象）。

—

总结与后续步骤

在这篇文章中，我们全面探讨了 Python Pandas 中的 dataframe.notna() 方法。从基本的语法到处理包含缺失值的数据，再到实战中的数据过滤技巧，我们看到了这个函数虽然简单，但在数据清洗流程中扮演着不可或缺的角色。

核心要点回顾：

INLINECODEe17b5856 是检测非缺失值的布尔函数，返回 INLINECODE82a8780d 表示有效，False 表示缺失。
它是数据过滤和清洗的基石，常与布尔索引结合使用。
注意区分标准的 INLINECODEb638d9ba 与空字符串 INLINECODE42515fec，后者默认不被视为缺失值。
优先使用 Pandas 的向量化方法而不是 Python 循环来处理缺失值检测，以确保高性能。

给你的建议：

下次当你拿到一份杂乱的数据集时，不要急着进行复杂的统计分析。首先运行 INLINECODEa24427e5 或 INLINECODE5d4a2169，以此作为你数据清洗工作的第一步，了解你的数据到底有多“完整”。掌握好这个工具，将使你在数据分析的道路上更加得心应手。

希望这篇指南对你有所帮助！如果你在实战中遇到了关于数据缺失的其他棘手问题，欢迎继续探索更多关于 INLINECODE3c6914b6（填充缺失值）和 INLINECODE0eae40fb（删除缺失值）的高级用法。

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客