深入解析 MySQL：掌握 GROUP BY 与 PARTITION BY 的核心差异与实战技巧

2026-01-31 17:37:04 0条评论 79次阅读 0人点赞

在 MySQL 数据库的日常使用中，你可能会经常遇到需要对数据进行分类汇总或精细化分析的场景。随着 MySQL 8.0 的普及，窗口函数的应用变得越来越广泛。这也让很多开发者开始思考一个经典的问题：“在处理数据分组时，我到底应该使用传统的 INLINECODEafa6341c，还是更强大的 INLINECODE69c11dff？”

这不仅仅是语法选择的问题，更关乎数据处理逻辑的本质区别。在本文中，我们将通过详细的实战案例和源码级别的分析，一起深入探讨这两种机制的工作原理、适用场景以及性能优化的策略。无论你是刚刚入门 SQL 的新手，还是希望优化查询性能的资深开发者，这篇文章都将为你提供清晰、实用的指引。

环境准备：构建我们的测试实验室

为了能够直观地演示这两种操作的区别，动手实践是必不可少的。理论虽然重要，但在数据库领域，看到实际的数据输出才是最让人放心的。让我们首先创建一个名为 INLINECODEbfa245be 的数据库，并在其中建立一张 INLINECODE04c0bbbd 表。

我们将在表中存储学生的 ID、姓名、电话号码以及所在城市。请跟随我执行以下 SQL 语句来构建我们的测试环境：

-- 第一步：创建数据库
CREATE DATABASE School;

-- 第二步：查看当前所有数据库，确认创建成功
SHOW DATABASES;

-- 第三步：切换到 School 数据库进行操作
USE School;

-- 第四步：创建学生信息表
-- 注意：Rollno 被设为主键，确保每个学生的ID是唯一的
CREATE TABLE student (
    Rollno int NOT NULL PRIMARY KEY,
    Name varchar(50) NOT NULL,
    Phone_num varchar(10) NOT NULL,
    city varchar(30) NOT NULL
);

-- 第五步：向表中插入模拟数据
-- 为了演示分组效果，我们特意让某些城市（如 Pune 和 Mumbai）有多条记录
INSERT INTO student VALUES (1, ‘Vishal‘, ‘9373533572‘, ‘Pune‘);
INSERT INTO student VALUES (2, ‘Rahul‘, ‘9876543210‘, ‘Mumbai‘);
INSERT INTO student VALUES (3, ‘Amit‘, ‘9988776655‘, ‘Pune‘);
INSERT INTO student VALUES (4, ‘Sneha‘, ‘9123456789‘, ‘Delhi‘);
INSERT INTO student VALUES (5, ‘Priya‘, ‘8899001122‘, ‘Mumbai‘);

-- 第六步：查看表中的所有数据
SELECT * FROM student;

执行完上述操作后，你应该能看到一个包含 5 条学生记录的表格。这就好比我们的小型实验室，接下来的所有实验都将基于这份数据展开。

第一部分：聚合利器 —— GROUP BY

INLINECODE1261d9d8 子句是 SQL 中最基础也是最常用的功能之一。当我们需要将多行数据按照某种规则“折叠”成一行时，就会用到它。简单来说，INLINECODE7cb478eb 的核心作用是“降维”——它将详细的数据行压缩成汇总信息。

#### 1.1 工作原理

当你使用 INLINECODE94f7481c 时，MySQL 会根据你指定的列（例如 INLINECODEdf753f00）中的值，将所有行分成不同的组。一旦分组完成，你就可以在 INLINECODE05fa69c2 列表中使用聚合函数（如 INLINECODE5e4fb6b1, INLINECODE60a344b1, INLINECODE097c5f7b 等）来对每一个组进行计算。这里有一个关键点需要注意：如果你使用了 INLINECODEcb952cf8，那么 INLINECODE7509976e 中出现的非聚合列，必须都包含在 GROUP BY 语句中。

#### 1.2 基本语法

SELECT column1, column2, aggregate_function(column3)
FROM table
WHERE conditions
GROUP BY column1, column2;

column1, column2: 你想要依据其进行分组的列。
aggregatefunction: 对组内数据进行计算的函数（例如 INLINECODE3e3d07a0, INLINECODE01bd6d5a, INLINECODEa72e588e）。

#### 1.3 实战案例：统计各城市学生人数

让我们回到刚才创建的 INLINECODE1d231d7d 表。假设校长问：“每个城市各有多少学生？” 这正是 INLINECODEc28cd4e7 大显身手的时候。

SELECT city, count(*) as student_count
FROM student
GROUP BY city;

查询结果分析：

在这个结果中，你将看不到具体的某个学生（比如 Vishal），只能看到 INLINECODE5bf9a86e 有 2 个学生，INLINECODE3cf15f9f 有 2 个，INLINECODE84ac86c7 有 1 个。原始的 5 行数据被“压缩”成了 3 行汇总数据。这就是 INLINECODEb9ca9cd5 的本质——它牺牲了细节，换取了宏观的视图。

#### 1.4 进阶场景：多字段分组与过滤

有时候，一个维度的分组是不够的。比如我们想看“每个城市中，每种姓名首字母”的学生数量。这就需要多列分组：

-- 假设我们要按城市和姓名的第一个字母进行分组
SELECT city, LEFT(Name, 1) as name_initial, COUNT(*) as count
FROM student
GROUP BY city, LEFT(Name, 1);

此外，你可能会遇到需要对分组后的结果进行筛选的情况。重点来了： 千万不要在 INLINECODE8915f35b 子句中使用聚合函数（如 INLINECODEd6ae30a3），这会报错。你需要使用 HAVING 子句。

-- 找出学生人数大于 1 的城市
SELECT city, COUNT(*) as count
FROM student
GROUP BY city
HAVING COUNT(*) > 1;

第二部分：精细分析 —— PARTITION BY

如果你觉得 INLINECODEfeb44335 把数据压缩得太厉害，导致丢失了原始行的细节，那么 INLINECODEb33f698c 就是为你准备的。INLINECODE530df572 是窗口函数（Window Functions）的核心概念，它的中文翻译通常被称为“分区”。INLINECODE9dc6ec8a 的核心作用是“分窗”——它在保留原始行数的基础上，为每一行数据进行更复杂的计算。

#### 2.1 工作原理

INLINECODEadfa656c 必须配合 INLINECODE92ed4db9 关键字使用。与 GROUP BY 不同，它不会减少结果集的行数。相反，它创建了一个“窗口”，在这个窗口内，每一行数据都可以访问同组内其他行的信息。这就像是你把学生按城市分到了不同的教室，但学生们依然坐在各自的座位上，并没有被合并成一个代表。

#### 2.2 基本语法

SELECT 
    column1, 
    window_function() OVER (PARTITION BY partition_column) as alias
FROM table_name;

#### 2.3 实战案例：计算城市内的排名

假设我们需要给每个城市的学生打上内部排名（比如 Pune 的第 1 名，Pune 的第 2 名）。如果用 GROUP BY，我们做不到这一点，因为排名依赖于具体的行。而使用窗口函数，这就变得非常简单：

SELECT 
    Name, 
    city, 
    ROW_NUMBER() OVER (PARTITION BY city ORDER BY Rollno) as rank_in_city
FROM student;

查询结果分析：

在这个查询中：

PARTITION BY city 告诉 MySQL 将数据按城市分开计算。
ORDER BY Rollno 确定了排名的顺序。
结果集依然保留了 5 行数据，但 Vishal 和 Amit 都显示他们属于 Pune 组，且拥有各自的排名（1 和 2）。

#### 2.4 兼容性方案：使用变量模拟 PARTITION BY (MySQL 5.7 及以下)

如果你所在的开发环境还在使用较老版本的 MySQL（不支持原生窗口函数），不要担心，我们可以利用用户自定义变量来模拟 PARTITION BY 的逻辑。虽然写法稍微复杂一点，但在不支持窗口函数的旧系统中，这是一个非常经典的“黑科技”。

下面的查询实现了与 ROW_NUMBER() OVER (PARTITION BY city ...) 完全一样的效果：

SELECT 
    Rollno,
    Name,
    city,
    (
        -- 使用 CASE 语句来判断当前行是否与上一行属于同一个城市
        @row_number := CASE 
            WHEN @current_city = city THEN @row_number + 1 
            ELSE 1 
        END
    ) AS row_number,
    -- 更新当前城市变量，以便下一行使用
    @current_city := city
FROM
    student,
    -- 初始化变量
    (SELECT @row_number := 0, @current_city := ‘‘) AS t
ORDER BY
    city, Rollno;

代码深度解析：

这段代码非常巧妙，让我们像调试代码一样一步步拆解它的执行逻辑：

初始化: 我们首先定义了两个变量 INLINECODEcd99d4f7（计数器）和 INLINECODE162258fb（状态标记器），并将它们初始化为 0 和空字符串。
排序: ORDER BY city, Rollno 至关重要。它确保了同一个城市的数据在物理存储上是挨在一起的，这样我们的变量逻辑才能顺序执行。
逐行判断:

* 当 MySQL 处理第一行时，INLINECODEac0771f8 是空的，显然不等于 INLINECODEd845861b (‘Pune‘)。INLINECODE4adb9aff 语句进入 INLINECODEb6b0ddbd 分支，将 INLINECODE0ffe162a 重置为 1，同时将 INLINECODE1a428fc6 更新为 ‘Pune‘。

* 当处理第二行时（如果是 Pune 的下一位学生），INLINECODE4d24a969 (‘Pune‘) 等于当前行的 INLINECODEb2b81339 (‘Pune‘)。于是，计数器 @row_number 加 1，变成 2。

* 当处理到新城市（如 Mumbai）的第一行时，@current_city (‘Pune‘) 不等于 ‘Mumbai‘，计数器重置为 1。

通过这种方式，我们在不减少行数的情况下，完美地模拟了窗口函数的分组计数功能。

第三部分：横向对比与性能优化

现在我们已经掌握了这两种工具，让我们站在更高的视角来对比它们，并讨论在实际开发中如何做出正确的选择。

#### 3.1 核心差异对比表

特性

GROUP BY

PARTITION BY (窗口函数) :—

:—

:— 结果集行数

减少 (每组返回一行)

保持 (每组保留原始行数) 本质

数据聚合 / 压缩

数据计算 / 分析 详细数据

无法直接获取原始非分组列

保留所有原始列的详细信息 常用场景

汇总报表、统计总数

分组排名、移动平均、累计求和依赖

标准 SQL (所有版本)

MySQL 8.0+ (老版本需用变量模拟)

#### 3.2 实战场景决策指南

场景 A：你需要生成“销售报表”，显示每个地区的总销售额。

决策： 使用 GROUP BY。因为老板只看总数，不需要知道每一笔交易的细节。

代码：* SELECT region, SUM(sales) FROM orders GROUP BY region;
场景 B：你需要找出“每个部门工资最高的前 3 名员工”。

决策： 使用 INLINECODEd7760fad。因为你需要列出具体的员工名字，而不仅仅是一个数字。INLINECODE04037e06 无法直接给出具体名字（除非使用极其复杂的子查询）。

代码：* ROW_NUMBER() OVER (PARTITION BY dept_id ORDER BY salary DESC)

#### 3.3 性能优化建议

在处理海量数据时，这两个子句可能会成为性能瓶颈。作为经验丰富的开发者，我们应该注意以下几点：

索引的重要性 (针对 GROUP BY):

INLINECODE3d73e40c 操作往往需要大量的排序和临时表。如果你经常按 INLINECODEaae9c666 分组，请确保 city 列上有索引。这可以避免 MySQL 在内存中对数据进行昂贵的排序操作（filesort）。

避免 SELECT * (针对两者):

在使用 INLINECODEb9184dc8 时，INLINECODEedf0a31b 通常是无效的（因为未被聚合的列不能直接出现）。在使用 INLINECODEcb9b1480 时，虽然可以 INLINECODE13824fb2，但为了减少网络传输和内存占用，建议只查询必要的列。

窗口函数的性能:

虽然窗口函数看起来很复杂，但在处理复杂的分组排名逻辑时，它们的性能通常比用自连接子查询模拟要高效得多。如果你还在用 MySQL 5.7，通过变量模拟 PARTITION BY 虽然可行，但在数据量极大时（百万级以上）可能会导致性能抖动，强烈建议升级到 MySQL 8.0 以获得原生的性能优化。

结语与下一步

通过这篇文章，我们一起从基础的环境搭建开始，深入研究了 MySQL 中 INLINECODE45797377 和 INLINECODE2c8d64c8 的内部机制。我们发现，它们并不是互斥的竞争对手，而是解决不同数据问题的利刃。

当你需要聚合、简化数据时，GROUP BY 是你的首选。
当你需要保留细节、进行组内比较时，PARTITION BY (窗口函数) 能为你提供强大的分析能力。

作为开发者，理解这些细微的差别能帮助我们写出更高效、更易读的 SQL 代码。建议你下次在编写查询时，先停下来想一想：“我是想要一个汇总的结果，还是想要一份带有排名的详细名单？” 这一步思考，将决定你选择哪一种工具。

你的下一步行动：

不要只停留在理论层面。建议你现在就打开你的 MySQL Workbench 或命令行，尝试修改文中的 SQL 语句。你可以尝试加入 INLINECODE8d94e2a4 条件，或者结合 INLINECODEb0bd95e9、SUM() 等不同聚合函数来看看结果有什么变化。只有通过不断的实验，这些知识才能真正内化为你的一部分。

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客