深入解析 PL/SQL 中 NOT IN 与 NOT EXISTS 的关键区别及最佳实践

2026-02-02 01:52:23 0条评论 40次阅读 0人点赞

在日常的 PL/SQL 开发中，你是否曾遇到过这样的困惑：明明看起来逻辑相同的 INLINECODE5c56fded 和 INLINECODE680e90fe，在处理包含 NULL 值的数据时，却给出了截然不同的结果？这不仅可能导致查询返回空集，甚至可能引发严重的业务逻辑错误。

作为开发者，理解这两者背后的工作原理、执行逻辑以及性能差异，对于编写健壮且高效的数据库代码至关重要。在这篇文章中，我们将深入探讨 INLINECODE424eb985 与 INLINECODE618c19d7 运算符的本质区别，并通过丰富的实战示例，揭示 NULL 值如何悄悄影响你的查询结果，以及如何选择正确的运算符来优化 SQL 性能。

环境搭建：准备测试数据

为了让我们能直观地看到问题所在，首先需要建立一个简单的测试场景。我们将模拟一个典型的公司组织架构，创建一个 employees 表，其中包含员工及其对应的经理信息。

在这个场景中，经理 ID (INLINECODE4ddcfdd1) 是一个外键，它指向同一张表中的 INLINECODEa9bde6c7。值得注意的是，并不是所有人都是经理，因此有些 INLINECODEbaa4e179 可能是空的，或者有些人不向任何人汇报（INLINECODE171e043c 为 INLINECODE46a8567d）。这种包含 INLINECODE9d2ba4dc 值的数据结构，正是许多 SQL 问题的“温床”。

以下是创建表并插入测试数据的 SQL 脚本。你可以直接在 PL/SQL 开发工具（如 SQL Developer 或 TOAD）中运行这段代码：

-- 创建员工表
CREATE TABLE employees (
    employee_id   NUMBER(10) NOT NULL,
    employee_name VARCHAR2(50) NOT NULL,
    manager_id    NUMBER(10)
);

-- 插入测试数据：包含普通员工、经理以及顶层管理者
INSERT INTO employees (employee_id, employee_name, manager_id)
SELECT 1, ‘Jack‘, 2 FROM DUAL    -- Jack 向 Jill 汇报
UNION ALL
SELECT 2, ‘Jill‘, NULL FROM DUAL  -- Jill 是顶层管理者，无经理
UNION ALL
SELECT 3, ‘Jim‘, NULL FROM DUAL   -- Jim 是顶层管理者，无经理
UNION ALL
SELECT 4, ‘Bill‘, 3 FROM DUAL    -- Bill 向 Jim 汇报
UNION ALL
SELECT 5, ‘Ben‘, NULL FROM DUAL   -- Ben 也是顶层管理者
UNION ALL
SELECT 6, ‘Alex‘, 2 FROM DUAL    -- Alex 向 Jill 汇报
UNION ALL
SELECT 7, ‘Andrew‘, 5 FROM DUAL  -- Andrew 向 Ben 汇报
UNION ALL
SELECT 8, ‘Chris‘, 5 FROM DUAL;  -- Chris 向 Ben 汇报

-- 查看完整数据
SELECT * FROM employees;

数据概览：

EMPLOYEEID

EMPLOYEENAME

MANAGER_ID :—

:—

:— 1

Jack

2 2

Jill

NULL 3

Jim

NULL 4

Bill

3 5

Ben

NULL 6

Alex

2 7

Andrew

5 8

Chris

我们的目标是找出所有不担任经理职务的员工。也就是说，我们要找那些 ID 没有出现在任何人的 manager_id 列表中的员工。

探索 NOT IN：NULL 值的陷阱

让我们先尝试使用最直观的逻辑：INLINECODE51f9fb79。我们想筛选出那些 INLINECODE9c8c9891 不在经理 ID 列表中的员工。

示例查询 1：基础 NOT IN 查询

-- 尝试查找非经理员工
SELECT * 
FROM   employees 
WHERE  employee_id NOT IN (
    SELECT manager_id 
    FROM   employees
);

运行结果：

> 未选定任何行 (No rows selected)。

发生了什么？

看到这个结果，你可能会感到困惑。观察数据我们知道，Jill、Jim 和 Ben 是经理（ID 2, 3, 5），而 Jack、Bill、Alex、Andrew、Chris 并没有下属。按理说，我们应该能查出这 5 个人，为什么数据库什么都没返回呢？

让我们单独运行一下子查询，看看经理 ID 列表里到底有什么：

-- 查看经理ID列表
SELECT manager_id 
FROM   employees;

子查询结果：

2
NULL
NULL
3
NULL
2
5
5

原理解析：三值逻辑的奥秘

这里的关键在于 INLINECODE4441834d。因为 Jill、Jim 和 Ben 没有上级，他们的 INLINECODEd38813ae 是 INLINECODE32286793。当我们执行 INLINECODE7a2ef304 时，SQL 引擎实际上是在执行一系列的 != (不等于) 比较。

对于 ID 为 1 的 Jack，SQL 引擎会在后台执行类似这样的逻辑：

1 != 2 (True)
1 != NULL (Unknown / NULL)
1 != 3 (True)
… (包含更多 != NULL 的比较)

在 SQL 标准中，任何值与 INLINECODE477c5ee7 进行比较，结果都是 INLINECODE44bc3f62（未知）。而在 INLINECODEf57b1614 子句中，只有结果为 INLINECODE7b117e47 的行才会被返回，INLINECODE4eb7d837 和 INLINECODE139bd5bf 都会被过滤掉。

由于 INLINECODE6bc49b4d 要求所有比较结果都为 INLINECODE2e76e120，只要子查询中存在一个 INLINECODEc21bd063，整个条件链就会断在 INLINECODEfaa9e91c 上，导致最终结果为 NULL（不被选中）。这就是为什么全表数据都被“吞掉”的原因。

解决方案：显式过滤 NULL 值

如果你必须使用 INLINECODEe9ad5e59，为了确保逻辑正确，你必须手动在子查询中排除 INLINECODE8f0fa9b8 值。这修正了我们的查询，使其按预期工作。

示例查询 2：修正后的 NOT IN 查询

-- 安全的 NOT IN 写法：排除 NULL 值
SELECT * 
FROM   employees 
WHERE  employee_id NOT IN (
    SELECT manager_id 
    FROM   employees 
    WHERE  manager_id IS NOT NULL  -- 关键：必须排除 NULL
);

结果输出：

EMPLOYEEID

EMPLOYEENAME

MANAGER_ID :—

:—

:— 1

Jack

2 4

Bill

3 6

Alex

2 7

Andrew

5 8

Chris

现在结果正确了！

深入 NOT EXISTS：更安全的选择

与 INLINECODE7df8350e 不同，INLINECODE001f67cd 使用的是一种截然不同的逻辑：相关子查询。它并不关心具体的值是否匹配，而是关心是否存在满足条件的行。而且，INLINECODE6cfedcb1 对 INLINECODE4e43ceb3 的处理方式是“无视”它，这在逻辑上通常更符合我们的直觉。

示例查询 3：使用 NOT EXISTS

-- 查找非经理员工：使用 NOT EXISTS
SELECT * 
FROM   employees e
WHERE  NOT EXISTS (
    SELECT 1 
    FROM   employees m 
    WHERE  m.manager_id = e.employee_id
);

代码解析：

外层查询：遍历 INLINECODEad8bebc5 表中的每一行（别名为 INLINECODE5def2bbc）。
内层查询：对于外层的每一个员工 INLINECODE10b59525，去 INLINECODE7b498599 表（别名为 INLINECODE292a9dce）中查找是否存在记录，使得 INLINECODE94f9c546 等于 e.employee_id。
NOT EXISTS 判定：如果内层查询找到了至少一行（说明 INLINECODE91a691a5 是某人的经理），则返回 INLINECODE8657b4f3，INLINECODE284585b9 将其变为 INLINECODE1221acd5，该行被过滤。如果内层查询没找到任何行，则返回 INLINECODE5dd8ecd7，INLINECODE49931324 将其变为 True，该行被保留。

为什么它不受 NULL 影响？

即使子查询中有 INLINECODEb72ba945 值，INLINECODEd2fc330a 关心的只是“有没有找到行”。比如，如果 INLINECODEc6d74652 是 INLINECODEa3af91ec，条件 INLINECODEd01b2d6d 永远不会成立，但这仅仅意味着那一行不匹配而已。它不会像 INLINECODE6249fdff 那样因为遇到 INLINECODE5e843133 而导致整个表达式逻辑坍塌。因此，INLINECODEea080ec2 自动且安全地处理了 NULL 值的情况。

性能对比：哪一个更快？

除了逻辑正确性，性能也是我们必须考虑的因素。虽然现代优化器（如 Oracle 的 CBO）非常智能，但在处理大型数据集时，这两者之间仍然存在显著差异。

1. NOT IN 的执行路径

哈希连接：如果数据量大且没有 NULL 值，优化器通常会将外层表和子查询结果进行哈希连接。这通常很快。
排序/过滤：如果子查询包含 DISTINCT 或需要排序，会有额外的开销。
NULL 的隐式成本：如果数据本身允许 NULL，为了安全起见，你总是需要加上 IS NOT NULL，这增加了一次过滤操作。

2. NOT EXISTS 的执行路径

嵌套循环：NOT EXISTS 典型的执行方式是“嵌套循环”。对于外层表的每一行，都在内层表中通过索引查找。一旦找到一条匹配记录，内层查询立即停止（Short-circuiting，短路特性），不再扫描剩余数据。
索引利用：如果 INLINECODE625f14e0 上有索引，INLINECODE369db4cc 会非常高效，因为它通常只需要检查索引条目，而不需要回表读取所有列。

实战建议：

小数据集：两者差异微乎其微。
大数据集：INLINECODE7f5db9fb 通常更稳定，尤其是当可以利用索引进行快速查找时。它能利用“一旦找到就停止”的特性，在处理复杂关联时往往比 INLINECODE08fa3ced 更快。
NOT IN 的风险：在某些数据库或旧版本中，如果子查询结果集巨大，NOT IN 可能导致大量的 CPU 和内存消耗（构建哈希表）。

最佳实践与常见错误

在编写生产级代码时，请牢记以下几点：

优先使用 NOT EXISTS：为了避免 NULL 带来的逻辑陷阱，并利用索引查找的优势，绝大多数情况下，NOT EXISTS 是更安全、更推荐的选择。

使用 NOT IN 的条件：如果你确信被比较的列是 INLINECODE2aa3a2f3 或 INLINECODE0695be5c 约束的列，那么使用 NOT IN 是安全的，且代码语义有时读起来更自然。

警惕空表：INLINECODEb1c11e86 还有一个让人抓狂的特性。如果子查询返回的是空集（例如一个空表），INLINECODE99c4e7cf 会返回所有行（逻辑正确）。但如果子查询包含 NULL，结果就变成了空集。这种不确定性是维护噩梦。

EXISTS 中的 SELECT 1：注意在 INLINECODE52e95170 或 INLINECODE18c8a5ad 的子查询中，INLINECODE6d24d681 后面具体是什么列并不重要（通常写 INLINECODE376bead5 或 INLINECODEa87cb5d4）。因为优化器只关心“是否存在行”，而不关心“行的内容是什么”。写 INLINECODE137456bd 是一种轻微的性能暗示（暗示不需要读取具体列数据），虽现代优化器大多会忽略此差异，但这是一个良好的编码习惯。

综合对比总结

让我们通过一个表格来快速回顾这两者的核心区别：

特性

NOT IN

NOT EXISTS :—

:—

:— NULL 值处理

极其敏感。如果子查询包含 NULL，结果可能为空（逻辑失效）。

安全。自动忽略 NULL，只关注行是否存在。 底层逻辑

值的比较。类似于 != 运算。

存在性的检查。类似于布尔判断。 性能特征

适合于小列表或非空列。大数据集下如果不注意可能导致性能抖动。

适合于大数据集，利用索引效率极高，具备“短路”特性。 写法复杂度

简单直观，但往往需要额外加上 IS NOT NULL 判断。

需要建立内外层关联，写法稍长，但逻辑严密。

结语

在我们的开发旅程中，理解 INLINECODE1db84607 和 INLINECODEc8007970 的区别是迈向高级 PL/SQL 编程的重要一步。虽然 INLINECODEa7994a39 看起来写起来更快，但它隐藏的 INLINECODE114e26ad 陷阱可能会在某个深夜的生产环境故障中让你措手不及。而 NOT EXISTS 虽然略显冗长，却提供了更加健壮、可预测的行为以及通常更优的性能表现。

下一次，当你需要过滤数据时，不妨问问自己：“这里是否存在 NULL 值的风险？” 如果答案是“可能有”，那么请毫不犹豫地选择 NOT EXISTS。你的代码将因此变得更加坚固和高效。

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客