深入理解 SQL GROUP BY：从基础语法到性能优化的完整指南

2026-02-12 10:51:30 0条评论 49次阅读 0人点赞

在处理数据库时，我们经常遇到这样的需求：不仅仅需要查询出具体的数据行，更需要对数据进行分类、汇总和统计。比如，作为数据分析师或后端开发人员，你可能需要计算每个部门的平均工资，或者统计每个月的订单总销售额。这就是 GROUP BY 子句大显身手的时候了。

INLINECODE43c8c1ea 是 SQL 中最强大且最常用的子句之一。通过它，我们可以将相同数据的行折叠成一组，从而配合聚合函数对每一组数据进行计算。然而，很多初学者在刚接触它时，往往容易混淆它与 INLINECODEa9c644a8、ORDER BY 的区别，或者在多表关联和性能优化上遇到瓶颈。

在这篇文章中，我们将像老朋友一样，由浅入深地探索 INLINECODE28b37e74 的方方面面。你将不仅学会它的基本语法，还将掌握 INLINECODEc5840bf3 子句的高级用法，理解执行顺序，并获得在实际工作中优化 SQL 查询性能的宝贵建议。

1 什么是 GROUP BY？
2 基本语法结构
3 场景一：企业薪资统计（单列分组）
4 场景二：学生成绩分析（多列分组）
5 进阶玩法：GROUP BY 与 HAVING 的强强联合
6 实战中的常见陷阱与解决方案
7 总结与最佳实践

什么是 GROUP BY？

简单来说，INLINECODE52820a2a 子句用于将具有相同值的行聚合在一起，把它们看作一个“组”。一旦数据被分组，我们就可以使用聚合函数——比如 INLINECODE803a98aa（计数）、INLINECODE66d1bac3（求和）、INLINECODEa83dfdc2（平均值）、INLINECODEf0e45005（最大值）和 INLINECODEaa9a43a4（最小值）——来对每个组进行操作，而不是对全表操作。

想象一下，如果你有一张包含全校学生成绩的表格，你想知道“每个科目的平均分是多少”。如果没有 GROUP BY，你很难做到这一点；有了它，你只需要告诉数据库：“请把所有记录按‘科目’归类，然后算一下每一组的平均值。”

基本语法结构

在我们深入具体的案例之前，让我们先通过标准的语法结构来了解一下它的构成：

SELECT column1, aggregate_function(column2)
FROM table_name
WHERE condition
GROUP BY column1, column2
ORDER BY column1;

这里有几个关键点需要注意：

INLINECODEb5e810d2: 这是你想要对其进行分组的列名。它通常会出现在 INLINECODE1a0683d4 列表中。
INLINECODE37a1daf2: 这是用于对分组后的数据进行计算的函数。例如，如果我们想计算每个部门的工资总和，就会用到 INLINECODE3208bea4。
INLINECODE47d7dd96: 这是一个可选子句，用于在分组之前筛选数据行。记住，INLINECODE89aaf103 是针对原始行进行过滤的。

查询执行顺序的秘密

很多开发者容易犯的一个错误是混淆 SQL 的书写顺序和执行顺序。理解这一点对于写出正确的 GROUP BY 查询至关重要。数据库引擎实际上是这样执行你的查询的：

FROM / JOIN: 确定数据来源。
WHERE: 对原始数据进行过滤（还没分组呢）。
GROUP BY: 将剩下的数据分成组。
聚合函数: 对每组进行计算。
HAVING: 对分组后的结果进行过滤（这个我们后面细讲）。
SELECT: 返回最终的数据。
ORDER BY: 对最终结果进行排序。

记住这个顺序，你就明白为什么不能在 INLINECODEa2d53285 子句中直接使用 INLINECODEa4215a64 或 INLINECODEfa99558f 的别名了——因为当 INLINECODE6dd0465a 执行时，聚合计算甚至还没有发生！

场景一：企业薪资统计（单列分组）

让我们先从一个经典的职场场景切入。假设我们正在维护一个员工管理系统，我们有一张名为 Employees 的表，里面包含了员工的姓名、部门和薪资。

首先，为了演示方便，我们需要先创建这个表并插入一些模拟数据：

-- 创建员工表
CREATE TABLE Employees (
    EmployeeID INT,
    Name VARCHAR(100),
    Department VARCHAR(100),
    Salary INT
);

-- 插入演示数据
INSERT INTO Employees VALUES
(1, ‘Alice‘, ‘HR‘, 50000),
(2, ‘Bob‘, ‘IT‘, 70000),
(3, ‘Charlie‘, ‘HR‘, 60000),
(4, ‘David‘, ‘IT‘, 80000),
(5, ‘Eve‘, ‘Sales‘, 45000),
(6, ‘Frank‘, ‘Sales‘, 55000);

原始数据如下（部分）：

EmployeeID

Name

Department

Salary

—

Alice

50000

Bob

70000

…

…### 需求：计算每个部门的总薪资支出

现在，老板想要一份报表，看看每个部门每个月总共要发多少工资。我们不仅要把所有员工列出来，还要把他们按“部门”合并。

查询语句：

-- 按部门分组，并计算总薪资
SELECT Department, SUM(Salary) AS TotalSalary
FROM Employees
GROUP BY Department;

代码解析：

INLINECODE7a36544a: 我们选择 INLINECODE5d147ce8 列，因为我们想知道这是哪个部门的数据。
INLINECODE1061c138: 我们计算 INLINECODE72375e3a 列的总和，并用别名 TotalSalary 让结果更易读。
INLINECODE459a0670: 这是核心指令。数据库会扫描 INLINECODE030ed4ff 列，把所有 ‘HR‘ 放一堆，所有 ‘IT‘ 放一堆。

输出结果：

Department

TotalSalary

—

110000

150000

Sales

100000通过这个查询，原本 6 行的员工数据被浓缩成了 3 行统计摘要。你可以清晰地看到 IT 部门的薪资支出是最高的。

场景二：学生成绩分析（多列分组）

有时候，单一维度的分组并不能满足我们的需求。让我们切换到学校管理的场景。假设我们有一张 Student 表，记录了学生的姓名、科目、入学年份和成绩。

需求：按科目和年份统计人数

如果我们只想知道每个科目有多少学生，简单的一列分组就够了。但如果我们想知道“每一个科目在每一年分别有多少学生注册”，这就需要同时按“科目”和“年份”进行分组。

查询语句：

-- 同时按科目和年份分组，统计学生数量
SELECT Subject, Year, COUNT(*) AS Student_Count
FROM Student
GROUP BY Subject, Year;

为什么这很有用？

想象一下，如果 2022 年和 2023 年都有 ‘Math‘（数学）课。如果我们只 INLINECODE112dbdac，数据库会把这两年的数学课学生全部混在一起计算。而加上 INLINECODE6ed3409a 后，数据库会寻找 ‘Subject‘ 和 ‘Year‘ 的唯一组合。只有当这两个值都相同时，行才会被合并。

输出结果示例：

Subject

Year

Student_Count —

—

— Math

2022

30 Math

2023

35 English

2022

从结果中，我们不仅可以对比不同科目的热度，还可以分析同一科目在不同年份的人数变化趋势。

进阶玩法：GROUP BY 与 HAVING 的强强联合

这是面试中最常考的知识点，也是实际开发中容易出错的地方：INLINECODEad38ca71 和 INLINECODE03dc6246 到底有什么区别？

简单来说：

INLINECODEa7594b26: 在分组之前过滤行。它不能使用聚合函数（如 INLINECODE764a7fea, COUNT）。
HAVING: 在分组之后过滤组。它专门用来筛选聚合后的结果。

场景三：筛选“高薪”部门

回到员工表的例子。假设我们需要找出总薪资超过 100,000 的部门。

如果你尝试这样写：

-- ❌ 错误写法
SELECT Department, SUM(Salary)
FROM Employees
WHERE SUM(Salary) > 100000 -- 报错！WHERE 不能直接使用聚合函数
GROUP BY Department;

数据库会直接报错，因为当 INLINECODEd96a998c 执行时，数据库还没来得及算 INLINECODE64669fe4 呢。这时候，我们就必须请出 HAVING。

正确的查询语句：

-- ✅ 正确写法：使用 HAVING 筛选分组后的结果
SELECT Department, SUM(Salary) AS TotalSpent
FROM Employees
GROUP BY Department
HAVING SUM(Salary) > 100000;

执行逻辑分析：

首先，数据库根据 GROUP BY Department 将员工分组。
然后，计算每组的 SUM(Salary)。算出 HR=110000, IT=150000, Sales=100000。
最后，HAVING 子句介入，丢弃掉 Sales 组（因为 100000 不大于 100000），只保留 HR 和 IT。

场景四：复杂的筛选条件（组合使用 WHERE 和 HAVING）

在实际工作中，我们经常会把 INLINECODE7e4a2d0f 和 INLINECODEac84ee32 结合起来使用。让我们看一个更复杂的例子。

需求： 我们只对 50岁以上 的员工感兴趣，我们要按年龄分组，并且只显示 平均薪资高于 60,000 的年龄组。
查询语句：

SELECT Age, AVG(Salary) AS Average_Salary
FROM Employees
WHERE Age > 50          -- 第一步：先剔除 50 岁以下的员工
GROUP BY Age            -- 第二步：按年龄分组
HAVING AVG(Salary) > 60000; -- 第三步：只保留平均薪资高于 6 万的组

在这个例子中，你可以清楚地看到两者的分工：INLINECODE9d9ab38f 负责“预处理”数据，把不符合的原始行去掉；INLINECODE6f22eae1 负责“后处理”，把不符合统计条件的组去掉。

实战中的常见陷阱与解决方案

在多年的开发经验中，我总结了一些开发者在使用 GROUP BY 时最容易踩的坑。避开它们，你的代码将更加健壮。

1. SELECT 中的非聚合列错误

错误代码：

-- 假设我们按 Department 分组
SELECT Department, Name, SUM(Salary) 
FROM Employees
GROUP BY Department;

问题： 这在标准 SQL 中是非法的（虽然 MySQL 的某些非严格模式可能允许，但这会导致不可预测的结果）。想一想，如果一个部门有 5 个人，你在 INLINECODEa4da5e03 里写 INLINECODE2c63c8f4，数据库该显示这 5 个人中的哪一个名字呢？它无法决定。
解决方案： INLINECODE52066145 列表中出现的所有非聚合列，都必须出现在 INLINECODE93953879 子句中。如果你确实需要显示相关名字，可以考虑使用 GROUP_CONCAT（在 MySQL 中）或者将查询作为子查询。

2. 性能问题：分组前的全表扫描

当数据量达到百万级时，GROUP BY 可能会变得很慢，因为它需要对数据进行排序和哈希计算。

优化建议：

添加索引： 在用于 INLINECODEf439e6f0 的列上建立索引。例如，如果你经常按 INLINECODE2748ffa6 分组，确保 Department 列有索引。
减少数据量： 尽量先使用 WHERE 子句过滤掉不必要的行，再进行分组。分组的行数越少，计算越快。

3. NULL 值的处理

你知道吗？在 SQL 中，INLINECODEcadbd7b3 值被视为相同的值。如果你的 INLINECODEd26cba62 列中有 INLINECODE393326f9，所有的 INLINECODE695a7b2c 会被自动归为同一组。

查询示例：

SELECT Category, COUNT(*)
FROM Products
GROUP BY Category;

如果有 100 个产品的 INLINECODE1225e1dc 是 INLINECODE018652be，结果中会有一行显示 INLINECODE09f6bc13。如果你想把它们标记为“未分类”，可以使用 INLINECODE31dc8ae5 函数：

-- 将 NULL 转换为 ‘Unknown‘
SELECT COALESCE(Category, ‘Unknown‘) AS Category, COUNT(*)
FROM Products
GROUP BY COALESCE(Category, ‘Unknown‘);

总结与最佳实践

到这里，我们已经对 SQL GROUP BY 进行了全面深入的研究。让我们回顾一下核心要点：

核心功能：INLINECODEa4155dbb 用于将数据分为逻辑组，以便使用聚合函数（INLINECODE5d313e46, INLINECODE712f7dee, INLINECODEf9758134 等）进行汇总统计。
执行顺序：记住 SQL 的执行顺序，特别是 INLINECODEed8223d7 在分组前执行，而 INLINECODEe0c5efa2 在分组后执行。这是编写有效查询的关键。
多列分组：当单一维度无法满足需求时，使用多列分组可以提供更细致的数据颗粒度。
避坑指南：确保 INLINECODEc5ed61dc 中的非聚合列都包含在 INLINECODEf2b8c706 中，警惕 NULL 值的分组行为，并在大数据量时注意索引优化。

下一步行动建议：

我建议你打开自己的数据库环境（无论是 MySQL, PostgreSQL 还是 SQL Server），尝试创建上述的表，并自己手写这些 SQL 语句。当你熟练掌握 INLINECODE76af7744 后，可以尝试结合 INLINECODEc603edae（连接查询）一起使用，比如“查找每个部门薪水最高的员工信息”，那将是真正的数据分析利器。

希望这篇文章能帮助你从“会用 SQL”进阶到“精通 SQL”。如果你在实践中有任何疑问，欢迎随时回看这篇文章作为参考。祝你编码愉快！

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客