使用 Matplotlib 和 Pandas 绘制多列分组柱状图完全指南

2026-02-04 01:55:10 0条评论 67次阅读 0人点赞

作为一名数据分析师或开发者，我们经常面临着将枯燥的数据转化为直观见解的挑战。在数据可视化领域，柱状图无疑是最经典且有效的工具之一，尤其是当我们需要并排对比不同类别的数值时。你是否曾想过，如何在一个图表中优雅地展示一个 Pandas DataFrame 中的多列数据？比如，我们既想看到不同人的年龄，又想同时对比他们的身高，这种“分组柱状图”该怎么画呢？

在这篇文章中，我们将深入探讨几种使用 Matplotlib 和 Pandas 绘制多列数据的高效方法。不同于传统的教程，我们将结合 2026 年的开发视角，不仅关注代码怎么写，更关注如何编写可维护、高性能且适应现代 AI 辅助开发流程的数据可视化代码。让我们从最简单的内置方法开始，逐步深入到底层定制，最后探讨更高级的数据重塑技巧。无论你是刚刚入门的数据科学爱好者，还是寻求优化可视化流程的开发者，这篇文章都将为你提供实用的见解和代码示例。

1 准备工作：理解数据结构与现代开发环境
2 方法一：使用 df.plot(kind="bar") —— 快速上手与原型验证
3 方法二：使用 plt.bar —— 企业级精细控制与生产环境部署
4 方法三：使用 Seaborn 与 melt() —— 处理复杂长数据与统计分析
5 2026 进阶视角：工程化、性能与陷阱
6 总结

准备工作：理解数据结构与现代开发环境

在开始编写代码之前，让我们先明确一下我们的目标。通常，我们需要处理的数据可能包含一个分类列（如姓名、日期、产品ID）和多个数值列（如销售额、利润、评分）。我们的目标是将分类列设为 X 轴，而将多个数值列作为并排的柱子显示在 Y 轴上。

为了演示，我们将使用一个包含“姓名”、“年龄”和“身高”的简单 DataFrame。在 2026 年的开发环境中，我们强烈建议在项目中引入类型提示，这不仅能帮助我们避免低级错误，还能让 AI 编程助手（如 GitHub Copilot 或 Cursor）更好地理解我们的意图，提供更精准的代码补全。

import pandas as pd
import matplotlib.pyplot as plt

# 2026 最佳实践：在脚本开头统一配置样式，确保生成的图表风格一致且美观
plt.style.use(‘seaborn-v0_8-whitegrid‘) # 使用现代风格
plt.rcParams[‘font.sans-serif‘] = [‘SimHei‘] # 用来正常显示中文标签
plt.rcParams[‘axes.unicode_minus‘] = False # 用来正常显示负号
plt.rcParams[‘figure.dpi‘] = 120 # 提高分辨率，适应现代高分屏

# 创建示例数据
data = {
    ‘Name‘: [‘John‘, ‘Sammy‘, ‘Joe‘], 
    ‘Age‘: [45, 38, 90], 
    ‘Height(in cm)‘: [150, 180, 160]
}
df = pd.DataFrame(data)

方法一：使用 df.plot(kind="bar") —— 快速上手与原型验证

这是我们最推荐新手使用的方法，也是在 AI 辅助编程中最常生成的代码模式。Pandas 的 DataFrame 对象内置了强大的绘图功能，它实际上是 Matplotlib 的一个封装。这意味着我们可以用极少的代码完成复杂的绘图任务。

核心逻辑与代码实现

通过指定 INLINECODEe4090215 参数为分类列，INLINECODE1ffe0f88 参数为一个包含多个数值列名的列表，Pandas 会自动帮我们计算位置，将它们并排绘制。这种方法特别适合我们在数据探索阶段（EDA），当你需要快速验证数据分布，而不是花费大量时间在样式调整上时。

# 直接使用 Pandas 的 plot 方法
# 这种写法非常符合“链式调用”的现代 Python 风格
df.plot(
    x="Name", 
    y=["Age", "Height(in cm)"], 
    kind="bar", 
    figsize=(10, 6),
    colormap=‘viridis‘ # 使用现代色盲友好的配色方案
)

plt.title("年龄与身高的对比", fontsize=14, pad=20) 
plt.ylabel("数值", fontsize=12) 
plt.xlabel("姓名", fontsize=12) 
plt.xticks(rotation=0) 
plt.legend(title="分组", framealpha=0.9) # 增加图例透明度，防止遮挡
plt.tight_layout() 
plt.show()

实战中的 AI 辅助技巧

在现代工作流中，如果你对 Matplotlib 默认的颜色不满意，你不需要去查阅复杂的颜色表。你只需要向 Cursor 或 Windsurf 这样的 IDE 发出指令：“将上面的图表颜色改为更适合深色背景的暖色调”，AI 就会自动为你生成 colormap=‘autumn‘ 或自定义十六进制颜色代码。这种“Vibe Coding”（氛围编程）的方式极大地提高了我们的开发效率。

方法二：使用 plt.bar —— 企业级精细控制与生产环境部署

如果你是一个完美主义者，或者你需要按照设计部门的具体规范来调整图表（例如柱子的宽度必须是 0.25 英寸，颜色必须是特定的品牌色），那么 Pandas 的封装可能显得不够灵活。这时，直接使用 Matplotlib 的 plt.bar 是更好的选择。虽然代码量增加了，但我们获得了对每一个像素的控制权。

实现步骤与深度解析

这里的核心思想是利用 NumPy 来计算柱子的位置。在生产环境中，这种写法更容易进行单元测试，因为我们可以精确地断言每个柱子的坐标。

import numpy as np

# 提取数据
# 注意：在实际项目中，这里的数据可能来自 SQL 查询或 API 响应
names = df[‘Name‘].values
ages = df[‘Age‘].values
heights = df[‘Height(in cm)‘].values

# 设置 X 轴的位置
x = np.arange(len(names)) # [0, 1, 2]
width = 0.35 # 柱子的宽度

# 创建画布和坐标轴对象
fig, ax = plt.subplots(figsize=(10, 6))

# 绘制第一组柱子（年龄）
# 关键点：位置向左偏移 width/2
rects1 = ax.bar(x - width/2, ages, width, label=‘Age‘, color=‘skyblue‘, edgecolor=‘black‘)

# 绘制第二组柱子（身高）
# 关键点：位置向右偏移 width/2
rects2 = ax.bar(x + width/2, heights, width, label=‘Height‘, color=‘#ff7f0e‘, edgecolor=‘black‘)

# 添加文本标签与辅助线
ax.set_ylabel(‘Scores‘)
ax.set_title(‘Scores by group and gender‘)
ax.set_xticks(x)
ax.set_xticklabels(names)
ax.legend()

# 自动添加数值标签
ax.bar_label(rects1, padding=3)
ax.bar_label(rects2, padding=3)

fig.tight_layout()
plt.show()

深入讲解位置计算逻辑

让我们思考一下这个场景：如果不手动计算偏移量，两组柱子就会重叠。这里的 x - width/2 其实是在告诉 Matplotlib：“请把第一根柱子的中心点，放在默认刻度的左边一点”。这种数学逻辑虽然简单，但它是定制化可视化的基石。当你需要绘制三组、四组甚至更多数据（比如对比过去四个季度的销售额）时，你只需要动态调整偏移量公式即可。

方法三：使用 Seaborn 与 melt() —— 处理复杂长数据与统计分析

前面的方法主要适用于“宽格式”数据。但在现代数据科学和 AI 模型训练中，我们经常处理“长格式”数据（Tidy Data）。如果你想使用 Seaborn 这样封装层次更高的库，或者你需要直接将可视化数据输入到机器学习管道中，melt() 是必不可少的工具。

数据重塑与绘图实战

让我们来看一个实际的例子，假设我们不仅要画图，还要在图上加上误差棒来表示数据的波动范围。

import seaborn as sns

# 步骤1：宽表变长表
# 这一步是数据处理中最关键的一环，将列名转化为数据值
df_long = df.melt(
    id_vars=‘Name‘, # 保持不变的列（标识符）
    value_vars=[‘Age‘, ‘Height(in cm)‘], # 要融合的列
    var_name=‘Attribute‘, # 新列名：原本的列名
    value_name=‘Value‘ # 新列名：原本的数值
)

# 步骤2：使用 Seaborn 绘图
# Seaborn 的优势在于它能自动处理图例、颜色和分类逻辑
plt.figure(figsize=(10, 6))
sns.barplot(
    data=df_long, 
    x=‘Name‘, 
    y=‘Value‘, 
    hue=‘Attribute‘, # 自动分色
    palette=‘pastel‘, # 使用柔和的配色
    errorbar=‘sd‘ # 2026版本：显示标准差（旧版参数为ci）
)

plt.title("使用 Seaborn 和 Melt 进行统计绘图")
plt.show()

为什么这很重要？

这种方法具有极强的扩展性。如果你的数据增加到 50 列，Pandas INLINECODE36cd7331 会变得难以阅读，但 INLINECODE1acad5f6 可以一键处理。此外，df_long 这种格式是 AI 模型（如 LLM）最容易理解的表格形式。如果你在开发一个 Agentic AI 应用，让 AI 自动分析图表，长格式数据是标准输入。

2026 进阶视角：工程化、性能与陷阱

作为一名经验丰富的开发者，我们不能止步于“画出来”。在真实的生产环境中，我们还需要考虑性能瓶颈、可访问性以及技术债务。

1. 处理双轴量纲差异的最佳实践

你可能会遇到这样的情况：对比“年龄”（0-100）和“工资”（0-100000）。直接画图会导致年龄柱子像一条线一样看不见。我们在 2026 年的最佳实践是使用 secondary_y，但要注意图例的处理。

df[‘Salary‘] = [50000, 60000, 90000]

# 创建主轴
ax1 = df.plot(x="Name", y="Age", kind="bar", color=‘skyblue‘, legend=False)

# 创建次轴，并共享同一个 x 轴
ax2 = df.plot(x="Name", y="Salary", kind="bar", ax=ax1, secondary_y=True, color=‘green‘, alpha=0.3, legend=False)

# 手动整合图例，防止误导
ax1.set_ylabel("Age")
ax2.set_ylabel("Salary")

# 解决中文显示问题，这在企业级报表中至关重要
plt.title("双轴量纲对比：年龄与薪资")
plt.show()

2. 性能优化：当数据量达到百万级

当我们面对百万级数据时，直接调用 df.plot() 可能会导致浏览器或 Notebook 卡死。

策略一：采样。不要尝试画 100 万根柱子，肉眼无法分辨。使用 df.sample(1000) 进行可视化采样。
策略二：聚合。使用 df.groupby(‘Category‘).mean() 将数据压缩后再绘图。
策略三：后端切换。在 Matplotlib 中使用 matplotlib.use(‘Agg‘) 切换到不渲染 GUI 的后端，直接保存为图片文件，减少内存消耗。

3. 常见陷阱与替代方案

在最近的几个企业项目中，我们发现了一个容易被忽视的问题：中文编码乱码。即使设置了 SimHei，在某些 Linux 服务器或 Docker 容器中，由于缺少中文字体库，图表仍然会显示方块。

解决方案：

我们推荐使用 Python 的 font_manager 动态加载系统字体，或者干脆在可视化层将中文映射为英文，仅在最终展示层进行翻译。此外，对于超大规模的实时数据，我们已经开始尝试转向 Plotly 或 Altair，它们基于 Web 技术，支持缩放和交互，体验远优于静态的 Matplotlib 图片。

总结

在这篇文章中，我们共同探索了从快速原型到企业级部署的多列柱状图绘制方案。回顾一下：

快速原型：使用 df.plot(kind=‘bar‘)，让 AI 帮你生成基础代码。
精细定制：使用 plt.bar 和 NumPy，掌握像素级的控制权，这是发布级图表的基础。
现代数据栈：结合 melt 和 Seaborn，适应 Tidy Data 和 AI 模型的输入要求。
工程化思维：关注性能、双轴处理和字体问题，确保代码在服务器上也能稳定运行。

没有一种方法是“万能”的。选择哪一种，取决于你的数据量大小、你想要的视觉风格，以及你所在项目的上下文。作为开发者，我们需要在代码的简洁性和可视化的灵活性之间找到平衡。希望这些实战经验能帮助你在 2026 年的数据可视化之路上走得更远。

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客