Matplotlib 深度指南：如何创建专业的分组柱状图

2026-02-14 05:24:23 0条评论 1次阅读 0人点赞

你好！作为一名数据可视化爱好者，你是否遇到过这样的情况：你手头有两组甚至多组相关联的数据，需要将它们放在一起进行直观的对比。例如，你可能想要对比不同产品在两个季度的销售情况，或者是不同班级在两次考试中的平均分差异。虽然绘制两个独立的柱状图也是一种方法，但将它们并排展示在同一个图表中，即绘制“分组柱状图”，往往能让数据的对比更加鲜明、有力。

在这篇文章中，我们将深入探讨如何使用 Python 中最流行的可视化库 Matplotlib 来创建分组柱状图。我们将从最基础的概念出发，逐步深入到包含多个数据集的复杂示例，甚至结合 Pandas DataFrame 来处理真实世界的数据。无论你是数据分析的初学者，还是寻求最佳实践的开发者，这篇文章都将为你提供详尽的指导和实用的见解。

1 什么是分组柱状图？
2 创建分组柱状图的核心逻辑
3 示例 1：基础的双列分组柱状图
4 示例 2：多列分组与美化（添加标签和图例）
5 示例 3：利用 Pandas DataFrame 高效绘图
6 深入理解与最佳实践
7 总结与后续步骤

什么是分组柱状图？

在开始写代码之前，让我们先明确一下我们要构建的目标。分组柱状图是一种柱状图，它允许我们在同一个类别（或 x 轴刻度）上并排显示多个子类别的数值。

想象一下，我们要分析五个团队在两轮比赛中的得分。如果是堆叠柱状图，柱子会叠在一起，虽然能看出总分，但很难直接比较某一轮的胜负。而分组柱状图则不同，它在“团队 A”的位置并排画两个柱子，分别代表第一轮和第二轮。这种视觉上的并排使得跨维度的数值比较变得异常轻松。通过使用 Matplotlib，我们不仅可以绘制出这样的图表，还能通过调整颜色、宽度和标签，使其符合专业的出版标准。

创建分组柱状图的核心逻辑

在 Matplotlib 中，并没有一个直接名为 grouped_bar() 的函数（不像 Excel 那样点一下就行）。创建分组柱状图的核心秘诀在于——位置偏移。

我们需要理解 Matplotlib 的坐标系统。当我们在 x 轴上画一个柱子时，它的位置是确定的。为了让两个柱子并排显示，我们需要人为地调整它们的 x 轴坐标：一个往左移一点，一个往右移一点。通常我们会配合使用 NumPy 的 arange 函数来生成一组均匀分布的索引位置，然后根据我们定义的柱子宽度来计算偏移量。

让我们通过一系列具体的例子来掌握这项技能。

示例 1：基础的双列分组柱状图

让我们从最基础的情况开始。我们将创建一个图表来比较 5 个不同类别下的两组数据。在这个例子中，我们将手动定义数据的宽度，并通过数学计算来确定柱子的具体位置。

代码实现

import matplotlib.pyplot as plt
import numpy as np

# 设置数据：创建 0 到 4 的索引，代表 5 个类别
x = np.arange(5) 

# 定义两组数值
y1 = [34, 56, 12, 89, 67]
y2 = [12, 56, 78, 45, 90]

# 定义每个柱子的宽度
# 这个值非常关键，它决定了柱子的粗细以及组内的间距
width = 0.40  

# 绘制第一组数据：向左偏移 0.2
# 我们使用 x - width/2 来将第一组柱子的中心对齐到刻度线的左侧
plt.bar(x - width/2, y1, width)

# 绘制第二组数据：向右偏移 0.2
# 我们使用 x + width/2 来将第二组柱子的中心对齐到刻度线的右侧
plt.bar(x + width/2, y2, width)

# 显示图表
plt.show()

代码深度解析

在这段代码中，INLINECODEf57b108a 数组（INLINECODE0ae07823）充当了我们数据的“锚点”。我们的目标是让这两个柱子以这些锚点为中心并排站立。

宽度计算：我们将宽度设为 INLINECODE7165a39a。这并不是随意定的。两个 INLINECODE776647d4 宽度的柱子加起来是 INLINECODEa7c2d15c，剩下的 INLINECODEb2434985 空间则自然成为了组与组之间的间隔。
位置偏移：为了让柱子围绕锚点 INLINECODE5dc9e53f 对称，我们不仅仅是移动柱子，而是移动它们的中心位置。因此，第一组数据放在 INLINECODEecd4410e（即锚点左侧 0.2 个单位），第二组放在 x + 0.2（即锚点右侧 0.2 个单位）。这种微小的数学调整是实现分组效果的关键所在。

示例 2：多列分组与美化（添加标签和图例）

仅仅画出柱子是不够的。在实际工作中，我们需要让图表“会说话”。接下来，我们将示例升级为 3 组数据，并添加 x 轴标签、y 轴标签、标题以及图例，使其更加专业。

场景设定

假设我们要比较 5 个团队（A, B, C, D, E）在 3 轮比赛中的得分表现。

代码实现

import matplotlib.pyplot as plt
import numpy as np

# 1. 准备数据
x = np.arange(5) # 类别的数量
y1 = [34, 56, 12, 89, 67]
y2 = [12, 56, 78, 45, 90]
y3 = [14, 23, 45, 25, 89]

# 2. 设置柱子的宽度和位置偏移
width = 0.2  # 因为有3组柱子，所以宽度要设小一点，防止重叠

# 计算每组的中心位置
# 如果我们把总宽度看作 1，那么三个柱子大约各占 0.2，间隔也是 0.2
# 这里我们让它们紧挨着：x-width, x, x+width
plt.bar(x - width, y1, width, color=‘cyan‘)
plt.bar(x,        y2, width, color=‘orange‘)
plt.bar(x + width, y3, width, color=‘green‘)

# 3. 添加图表装饰元素
plt.xticks(x, [‘Team A‘, ‘Team B‘, ‘Team C‘, ‘Team D‘, ‘Team E‘])
plt.xlabel("Teams")
plt.ylabel("Scores")
plt.title("Team Performance Comparison")

# 添加图例，帮助区分颜色代表的轮次
plt.legend(["Round 1", "Round 2", "Round 3"])

plt.show()

关键点解析

在这个例子中，你会注意到我们把 INLINECODE8e92141b 调整为了 INLINECODE25ac1923。因为我们有 3 组数据（Round 1, 2, 3），如果宽度还是 0.4，它们就会重叠在一起。为了容纳 3 个柱子，我们需要更窄的宽度。

位置策略：我们将中间的一组（INLINECODE03f0c27c）固定在 INLINECODE87e4e8c1 的位置。第一组（INLINECODE5364a150）放在 INLINECODE13aef4a1，第三组（INLINECODE13e84067）放在 INLINECODE9eccabd8。这样，它们就紧紧地排列在一起，形成一个视觉上的“分组”。
可读性增强：通过 plt.xticks()，我们将默认的数字刻度（0, 1, 2…）替换为了有意义的团队名称，这是数据可视化中非常重要的一步。

示例 3：利用 Pandas DataFrame 高效绘图

在真实的数据分析场景中，我们的数据通常存储在 DataFrame 中，而不是手动的列表里。幸运的是，Pandas 集成了 Matplotlib 的功能，让我们可以直接从 DataFrame 绘制图表，这大大提高了效率。

代码实现

import matplotlib.pyplot as plt
import pandas as pd

# 创建一个包含数据的 DataFrame
# 这里模拟了 4 个团队在 4 轮比赛中的得分
data = {
    ‘Team‘: [‘A‘, ‘B‘, ‘C‘, ‘D‘],
    ‘Round 1‘: [10, 20, 12, 10],
    ‘Round 2‘: [20, 25, 15, 29],
    ‘Round 3‘: [10, 15, 19, 13],
    ‘Round 4‘: [30, 25, 6, 19]
}
df = pd.DataFrame(data)

# 设置 ‘Team‘ 列作为索引，或者直接指定 x 参数
df.plot(x=‘Team‘,
        kind=‘bar‘,      # 指定图表类型为柱状图
        stacked=False,   # 确保是分组柱状图，而不是堆叠柱状图
        figsize=(10, 6), # 设置图表大小
        title=‘Grouped Bar Graph with Pandas DataFrame‘)

plt.xlabel("Team Name")
plt.ylabel("Scores")
plt.show()

优势分析

使用 Pandas 的最大好处在于它自动处理了刻度和图例。注意代码中的 x=‘Team‘ 参数，Pandas 会自动提取该列作为 x 轴标签，并自动将数值列（Round 1-4）绘制成不同颜色的柱子，同时生成图例。这种方法非常适合数据预处理已经完成的阶段，能够快速生成可视化的初步结果。

深入理解与最佳实践

在掌握了基本的绘图方法后，让我们深入探讨一些在实际开发中可能遇到的挑战和最佳实践。

1. 位置计算的数学原理

你可能会问：“如果我有 4 组数据，我该如何计算偏移量？” 这是一个非常好的问题。让我们总结一个通用的公式。

假设你有 INLINECODE89668e5a 组数据，你可以定义一个基础宽度 INLINECODEdd62cb08。那么每两个柱子之间的间隔可以是 INLINECODE7f5928c7（假设无间隙）或者你可以设置一个 INLINECODEc02eb27b。为了简单起见，通常我们让柱子紧贴。

总偏移范围大约是 INLINECODE06ef9fe5。我们可以以 INLINECODE5f95fc87 为中心，将第 i 组柱子的位置设为：

position = x + (i - (N-1)/2) * w

例如，对于 3 组数据（i=0,1,2），中心索引是 1。那么位置分别是 INLINECODE99b2384f, INLINECODEe2420247, x+w。掌握这个数学原理后，你就可以处理任意数量的分组了。

2. 颜色的选择与对比度

在示例中，我们使用了简单的颜色名称如 ‘cyan‘, ‘orange‘。但在专业报告中，建议使用更柔和的调色板，或者 Matplotlib 的 ‘tab10‘ 颜色循环。对于需要打印的黑白文档，不同的灰色深浅或填充图案是更好的选择。

3. 常见错误：忘记修改 x 轴刻度

很多初学者会遇到一个问题：柱子已经分好组了，但 x 轴上显示的还是 INLINECODEe3daeda9，而不是数据的类别名称。这会导致看图的人无法理解数据的含义。务必记得使用 INLINECODE0ab74482 来修正坐标轴标签。

4. 性能优化建议

如果你需要绘制成千上万个柱子（例如在科学计算中），Matplotlib 可能会变慢。在这种情况下，可以考虑以下优化：

关闭自动缩放：plt.autoscale(enable=False)。
使用更简单的绘图后端，如 Agg（如果是保存图片不需要显示）。

总结与后续步骤

在这篇文章中，我们系统地学习了如何使用 Matplotlib 创建分组柱状图。我们从一个简单的双列图表开始，逐步学习了如何添加多列数据、如何美化图表，以及如何利用 Pandas 简化工作流程。我们还深入探讨了位置计算的数学原理，这将赋予你自定义复杂图表的能力。

分组柱状图是数据比较的有力工具，它能够清晰地揭示不同类别在多个维度上的差异。通过练习今天展示的代码，你将能够自信地将你的数据转化为直观的视觉故事。

现在，我建议你尝试使用自己的数据集来构建一个分组柱状图。你甚至可以尝试进一步挑战，比如给柱子添加数据标签（在每个柱子上显示具体数值），或者调整 y 轴的起始范围以突出差异。祝你在数据可视化的旅程中收获满满！

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客

Matplotlib 深度指南：如何创建专业的分组柱状图

什么是分组柱状图？

创建分组柱状图的核心逻辑

示例 1：基础的双列分组柱状图

代码实现

代码深度解析

示例 2：多列分组与美化（添加标签和图例）

场景设定

代码实现

关键点解析

示例 3：利用 Pandas DataFrame 高效绘图

代码实现

优势分析

深入理解与最佳实践

1. 位置计算的数学原理

2. 颜色的选择与对比度

3. 常见错误：忘记修改 x 轴刻度

4. 性能优化建议

总结与后续步骤

相关文章美国1G带宽/1T流量高速vps $17.99/年