PostgreSQL 窗口函数深度解析：精通 ROW_NUMBER() 的应用与优化

2026-02-16 23:53:08 0条评论 73次阅读 0人点赞

在处理数据库中的复杂数据分析、生成报表或清理重复数据时，你是否经常遇到这样的难题：如何为结果集中的每一行分配一个唯一的序列号？或者，如何在一个分组内找出排名前几的记录？作为开发者，我们经常需要处理这类“排序”和“筛选”的逻辑。虽然我们可以在应用层代码中通过循环来实现，但这样做既低效又繁琐。

今天，我们将深入探讨 PostgreSQL 中一个非常强大且不可或缺的工具——ROW_NUMBER() 函数。我们将一起探索它的工作原理，以及如何利用它来解决诸如分页、去重和分组排名等实际问题。通过这篇文章，你将不仅掌握该函数的语法，更能学会如何在真实的业务场景中高效地运用它。

什么是 ROW_NUMBER()？

简单来说，ROW_NUMBER() 是 PostgreSQL 中的一个窗口函数。与普通的聚合函数（如 SUM 或 COUNT）不同，窗口函数不会导致行数减少，而是允许我们在不影响原始行数的情况下，对数据进行分组、排序和计算。

ROW_NUMBER() 的核心作用是为结果集中的每一行分配一个唯一的连续整数，从 1 开始。这种编号是基于我们定义的排序规则来进行的。当处理的数据集被划分为不同的分区（Partition）时，编号会在每个分区内独立重新开始。

让我们看看它的标准语法结构：

ROW_NUMBER() OVER (
    [PARTITION BY partition_expression, ... ]
    ORDER BY order_expression [ASC | DESC], ...
)

这里有两个关键部分需要我们理解：

INLINECODE87948a2b (可选)：这个子句就像是“分组”。它将结果集切分成多个独立的“窗口”。如果你使用了 INLINECODE437e8708，行号会在每个分组内从 1 开始重新计算。如果省略，整个结果集将被视为一个单一的分组。
ORDER BY (必选)：这决定了行号分配的顺序。如果不指定排序，结果的顺序是不确定的，行号也就失去了意义。

基础实战：给数据排序

在深入复杂场景之前，让我们先从一个最简单的例子开始。假设我们有一张名为 employees 的员工表，里面包含了员工的 ID、姓名、部门和薪水。

数据准备：

name

department

salary

—

Alice

50000

Bob

60000

Charlie

70000

David

80000

Eva

Marketing

55000#### 示例 1：全局薪资排名

我们的目标是：按照薪资从高到低的顺序，给所有员工分配一个排名号。这意味着薪资最高的人是第 1 名。

查询语句：

SELECT 
    id, 
    name, 
    department, 
    salary,
    -- 使用 ROW_NUMBER() 根据薪资降序分配行号
    ROW_NUMBER() OVER (ORDER BY salary DESC) AS rank_num
FROM employees;

结果展示：

name

department

salary

rank_num —

—

— 4

David

80000

1 3

Charlie

70000

2 2

Bob

60000

3 5

Eva

Marketing

55000

4 1

Alice

50000

代码解析：

在这个查询中，我们没有使用 INLINECODEe038af50，这意味着整个表被视为一个整体。INLINECODEfeff0054 确保 David（薪资 80000）拿到了第一名。这就是 ROW_NUMBER() 最直观的用法——生成一个严格的、不重复的排名序列。

进阶实战：分组内部排名

在实际业务中，我们往往不需要全局排名，而是需要在特定的组内进行排名。比如，我们想知道“每个部门里谁的薪水最高”。这就需要用到 PARTITION BY。

#### 示例 2：部门内部薪资排名

查询语句：

SELECT 
    id, 
    name, 
    department, 
    salary,
    -- 按部门分区，并在部门内按薪资降序排列
    ROW_NUMBER() OVER (
        PARTITION BY department 
        ORDER BY salary DESC
    ) AS dept_rank
FROM employees;

结果展示：

name

department

salary

dept_rank —

—

— 3

Charlie

70000

1 1

Alice

50000

2 2

Bob

60000

1 4

David

80000

2 5

Eva

Marketing

55000

代码解析：

注意看结果，当部门从 HR 变为 IT 时，INLINECODE932a9f7e 重置回了 1。INLINECODEde80d1dc 将数据切分成了 HR、IT 和 Marketing 三个独立的窗口，排序仅在各自的窗口内生效。这对于生成“部门内部绩效报告”非常有用。

高级应用：找出“每组前 N 个”数据

仅仅展示排名是不够的，我们通常需要根据排名来过滤数据。比如，只查询每个部门薪水最高的前 2 名员工。这时，ROW_NUMBER() 配合子查询（或 CTE）就能大显身手了。

#### 示例 3：筛选每个部门薪水前 2 名的员工

我们不能直接在 WHERE 子句中使用窗口函数，因为窗口函数的执行顺序在 WHERE 之后。因此，我们需要使用公用表表达式（CTE）或者子查询先计算出排名，然后再进行过滤。

查询语句：

WITH RankedEmployees AS (
    SELECT 
        id, 
        name, 
        department, 
        salary,
        -- 先在 CTE 中计算好排名
        ROW_NUMBER() OVER (
            PARTITION BY department 
            ORDER BY salary DESC
        ) AS rank_num
    FROM employees
)
SELECT 
    id, name, department, salary, rank_num
FROM RankedEmployees
WHERE rank_num <= 2; -- 过滤出前 2 名

结果展示：

name

department

salary

rank_num —

—

— 3

Charlie

70000

1 1

Alice

50000

2 2

Bob

60000

1 4

David

80000

2 5

Eva

Marketing

55000

代码解析：

在这里，我们首先定义了一个名为 INLINECODE2cd7db53 的临时结果集（CTE）。在这个临时集中，每个人都被打上了排名。然后，外层的查询就像查询普通表一样，直接筛选 INLINECODE55692a8a 的记录。这是一个非常实用的“Top-N”查询模式。

实战场景：数据去重

除了排名，ROW_NUMBER() 在数据清洗中还有一个杀手锏：去重。

假设我们的表中存在重复数据，例如同一个员工被录入了两次（除了 ID 不同，其他信息相同）。我们要删除重复项，只保留 ID 最小的那一条。这时候，我们可以根据重复字段分组，然后为每一组生成行号，最后保留行号为 1 的记录，删除其余的。

#### 示例 4：处理重复数据

让我们稍微修改一下 employees 表的数据，假设 Bob 的记录重复了（id=2 和 id=6，且属性相同）。我们的目标是找出这些“多余”的行。

查询语句：

-- 识别重复行：假设 name 和 department 都相同视为重复
WITH DuplicateCheck AS (
    SELECT 
        id, 
        name, 
        department,
        -- 按名字和部门分组，ID小的排前面
        ROW_NUMBER() OVER (
            PARTITION BY name, department 
            ORDER BY id ASC
        ) AS row_num
    FROM employees
)
SELECT * 
FROM DuplicateCheck
WHERE row_num > 1; -- 筛选出那些重复的“副本”

实用见解：

你可以将上述逻辑转化为 INLINECODE11b4c4ef 语句，或者使用 INLINECODE15456216 将干净的存入新表。这是处理脏数据时最安全、最可控的方法之一，比直接使用 DISTINCT 更灵活，因为你可以精确控制保留哪一条记录。

性能优化与最佳实践

虽然 ROW_NUMBER() 非常强大，但它也是有成本的。作为开发者，我们需要了解它的性能特性，写出高效的 SQL。

排序的代价：INLINECODEfa4035ff 强制数据库对数据进行排序。如果数据量很大且没有索引，这个操作会非常消耗 CPU 和内存（因为它可能需要磁盘排序）。尽量确保 INLINECODE9ee91b19 后面的字段上有合适的索引，这样数据库可以利用索引的有序性，避免昂贵的排序操作。
避免在 WHERE 中直接使用：就像前面提到的，不要试图写 WHERE ROW_NUMBER() OVER (...) = 1，这在语法上是错误的。必须使用子查询或 CTE 将窗口函数封装起来。
INLINECODE64dae7b8 vs INLINECODE317b774c vs DENSE_RANK()：这是一个常见的面试题，也是实战中的关键选择。

* ROW_NUMBER()：总是返回唯一的连续整数（1, 2, 3, 4）。即使两个人薪水相同，也会有先后之分（取决于额外的排序条件）。如果你需要严格的“第一名、第二名”，用它。

* RANK()：并列排名。如果两人并列第一，则下一名是第三名（1, 2, 2, 4）。适合赛制排名。

* DENSE_RANK()：紧凑并列排名。如果两人并列第一，下一名仍是第二名（1, 2, 2, 3）。适合查找“前 N 名”而不留空缺。

总结与展望

在今天的文章中，我们深入学习了 PostgreSQL 中的 ROW_NUMBER() 函数。从基本的语法理解，到全局排序、分组排名，再到处理复杂的去重和分页问题，我们看到了这个函数的灵活性。

掌握了 ROW_NUMBER()，意味着你掌握了 SQL 数据处理的一把关键钥匙。它让我们的查询逻辑更加清晰，也减少了在应用层代码中处理数据的麻烦。下次当你遇到“Top-N 问题”或者“分组筛选”的需求时，不妨第一时间想到这个强大的窗口函数。

建议你可以在自己的本地环境中创建测试表，尝试运行上述的 SQL 示例，并尝试修改 INLINECODE2a531cfd 和 INLINECODE69fff8e9 的字段，观察结果的变化。最好的学习方式就是动手实践。

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客

PostgreSQL 窗口函数深度解析：精通 ROW_NUMBER() 的应用与优化

什么是 ROW_NUMBER()？

基础实战：给数据排序

进阶实战：分组内部排名

高级应用：找出“每组前 N 个”数据

实战场景：数据去重

性能优化与最佳实践

总结与展望

相关文章美国1G带宽/1T流量高速vps $17.99/年