如何从 Pandas DataFrame 创建专业级饼图：全面指南

2026-01-31 17:35:02 0条评论 81次阅读 0人点赞

在数据分析和可视化的工作中，我们经常需要将枯燥的数据转化为直观的图形。特别是当我们想要展示“部分与整体”的关系时，饼图无疑是最经典且有效的选择。你是否也曾面对着一堆 Excel 表格或 Pandas DataFrame，试图快速洞察各个类别的占比情况？在这篇文章中，我们将深入探讨如何利用 Python 强大的 Pandas 和 Matplotlib 库，从 DataFrame 创建出既美观又专业的饼图。

我们会从最基础的绘图操作开始，逐步深入到自定义颜色、分离扇形、添加阴影等高级技巧。不仅如此，站在 2026 年的时间节点，我还会分享在实际开发中常见的坑、性能优化建议，以及如何结合 AI 辅助编程 来提升效率。让我们准备好环境，开始这段数据可视化之旅吧。

准备工作

在动手写代码之前，我们需要确保工具箱里装备齐全。虽然 Pandas 是我们处理数据的核心，但它的绘图功能实际上依赖于 Matplotlib 后端。因此，我们需要安装这两个库。打开你的终端或命令行，运行以下命令：

pip install pandas matplotlib

2026 开发小贴士：

现在，我们越来越多地使用 AI 原生开发环境，如 Cursor 或 Windsurf。在这些环境中，你甚至不需要手动敲出 pip install 命令。当你导入一个未安装的库时，AI 伴侣通常会提示你是否自动安装并配置环境。这不仅节省了时间，还减少了环境配置错误的可能性。让我们假设环境已经就绪，直接进入编码环节。

基础示例：从 DataFrame 生成第一个饼图

让我们从一个最简单的场景开始。假设我们有一组关于班级选举投票的数据，我们需要统计每位候选人的总票数，并以饼图的形式展示他们的得票率。

在 Pandas 中，INLINECODE1fa2b3e2 方法是一个非常方便的接口，它允许我们直接在 DataFrame 或 Series 对象上调用绘图功能。为了画出饼图，关键在于设置 INLINECODE05458831。

示例代码：

import pandas as pd
import matplotlib.pyplot as plt

# 1. 构造数据：模拟班级投票数据
# 每个名字重复出现，代表不同的选票
df = pd.DataFrame({
    ‘Name‘: [‘Aparna‘] * 5 + [‘Juhi‘] * 5 + [‘Suprabhat‘] * 5,
    ‘votes_of_each_class‘: [12, 9, 17, 19, 20, 11, 15, 12, 9, 4, 22, 19, 17, 19, 18]
})

# 2. 数据聚合：按名字分组并计算总票数
# 这一步至关重要，因为饼图通常展示的是汇总后的统计量
grouped_data = df.groupby(‘Name‘).sum()

# 3. 绘制饼图
# y 参数指定用于绘图的数值列
grouped_data.plot(kind=‘pie‘, y=‘votes_of_each_class‘)

# 4. 展示图表
plt.show()

代码解析：

在这段代码中，我们首先创建了一个包含名字和票数的 DataFrame。这里的数据是“细碎”的，同一个名字对应多行数据。直接画饼图会一团糟，所以我们使用了 INLINECODE9e3a12bd。这行代码是数据处理的核心：它将同一个名字的所有票数加在一起，把数据变成了我们可以理解的形式。最后，INLINECODE486cb732 告诉 Pandas 我们需要一个饼图，而 y=‘votes_of_each_class‘ 告诉它用哪一列的数值来决定扇形的大小。

进阶技巧：让饼图更专业、更易读

虽然上面的基础图能跑通，但在实际汇报或数据分析报告中，它往往显得过于简陋。缺乏标签、颜色单调、重点不突出是常见的问题。让我们通过几个实用的步骤，优化这个图表。

#### 1. 自动添加百分比标签

饼图的灵魂在于“比例”。如果观众需要拿尺子量或者拿计算器算才能知道占比，那这个图表就是失败的。我们可以使用 autopct 参数来自动显示百分比。

示例代码：

import pandas as pd
import matplotlib.pyplot as plt

# 重新构造数据
df = pd.DataFrame({
    ‘Name‘: [‘Aparna‘] * 5 + [‘Juhi‘] * 5 + [‘Suprabhat‘] * 5,
    ‘votes_of_each_class‘: [12, 9, 17, 19, 20, 11, 15, 12, 9, 4, 22, 19, 17, 19, 18]
})

# 绘制带有百分比的饼图
# autopct=‘%1.1f%%‘ 会将数值格式化为保留一位小数的百分比字符串
df.groupby(‘Name‘).sum().plot(
    kind=‘pie‘, 
    y=‘votes_of_each_class‘, 
    autopct=‘%1.1f%%‘, # 格式化字符串：1位小数，加上百分号
    figsize=(8, 8)      # 稍微放大图表，让文字更清晰
)

plt.title("班级投票占比分布") # 添加总标题
plt.show()

实用见解：

这里 INLINECODEbc0b3003 参数不仅接受简单的字符串，还可以是一个函数。如果你需要更复杂的逻辑（比如当占比小于 5% 时不显示），你可以传入一个 lambda 函数。对于大多数情况，INLINECODE19750dc8 是最佳的黄金标准，它既提供了足够的精度，又不会让数字显得过于拥挤。

#### 2. 自定义配色方案

颜色不仅仅是装饰，它是传达信息的辅助手段。默认的配色往往无法满足特定的品牌需求，或者在打印时不够清晰。我们可以通过 colors 参数传入一个颜色列表，精确控制每一个扇形的颜色。

示例代码：

import pandas as pd
import matplotlib.pyplot as plt

df = pd.DataFrame({
    ‘Name‘: [‘Aparna‘] * 5 + [‘Juhi‘] * 5 + [‘Suprabhat‘] * 5,
    ‘votes_of_each_class‘: [12, 9, 17, 19, 20, 11, 15, 12, 9, 4, 22, 19, 17, 19, 18]
})

# 定义一个专业的配色列表（可以使用十六进制颜色码）
my_colors = [‘#FF9999‘, ‘#66B2FF‘, ‘#99FF99‘] # 浅红、浅蓝、浅绿

# 或者使用matplotlib预定义的颜色名称
# my_colors = [‘pink‘, ‘silver‘, ‘steelblue‘]

df.groupby(‘Name‘).sum().plot(
    kind=‘pie‘, 
    y=‘votes_of_each_class‘,
    autopct=‘%1.1f%%‘, 
    colors=my_colors, # 应用自定义颜色
    fontsize=13       # 调整字体大小
)

plt.ylabel(‘‘) # 隐藏默认的 y 轴标签（在饼图中这通常是多余的）
plt.show()

解释：

如果你发现图表的颜色列表比数据的类别少，Matplotlib 会循环使用这些颜色。这在处理动态数据时非常有用，因为你不需要为每一个可能的类别都硬编码一个颜色。

企业级数据处理：AI 时代的“长尾”聚合策略

在现代数据应用中，我们经常遇到“长尾分布”的数据。例如，在分析电商平台的销售数据时，头部商品贡献了主要销售额，但剩下成千上万的小商品只占极小比例。直接将这些小商品画在饼图上会导致图表密密麻麻，不可阅读。

在 2026 年，我们更倾向于使用 Vibe Coding（氛围编程） 来快速解决这类逻辑问题。我们可以让 AI 伴侣帮助我们编写一个通用的“长尾合并”函数。

实战场景： 将占比小于 5% 的所有项目合并为“其他”。
示例代码：

import pandas as pd
import matplotlib.pyplot as plt

# 模拟更复杂的数据：包含大量小项
raw_data = {
    ‘Product‘: [‘旗舰手机‘, ‘笔记本电脑‘, ‘智能手表‘, ‘耳机‘, ‘充电器‘, ‘保护壳‘, ‘数据线‘, ‘鼠标垫‘],
    ‘Sales‘: [50000, 30000, 15000, 8000, 3000, 2000, 1000, 500]
}
df = pd.DataFrame(raw_data)

# --- 核心逻辑开始 ---
def aggregate_small_slices(data, value_col, threshold=0.05, other_name="其他"):
    """
    将DataFrame中占比小于指定阈值的行合并为一行。
    
    Args:
        data: pandas DataFrame
        value_col: 数值列名
        threshold: 合并阈值（百分比，如0.05代表5%）
        other_name: 合并后的类别名称
    """
    # 计算总量
    total = data[value_col].sum()
    
    # 计算占比
    data[‘Percentage‘] = data[value_col] / total
    
    # 筛选出大于阈值的数据
    main_data = data[data[‘Percentage‘] >= threshold].copy()
    
    # 计算小于阈值的数据总和
    other_sum = data[data[‘Percentage‘]  0:
        # 创建一个新的DataFrame来存放结果
        result_data = pd.concat([
            main_data[[value_col, ‘Product‘]],
            pd.DataFrame({"Product": [other_name], value_col: [other_sum]})
        ], ignore_index=True)
    else:
        result_data = main_data[["Product", value_col]]
        
    return result_data.set_index("Product")

# 应用函数
cleaned_df = aggregate_small_slices(df, ‘Sales‘, threshold=0.05)

# --- 绘图 ---
cleaned_df.plot(
    kind=‘pie‘, 
    y=‘Sales‘,
    autopct=‘%1.1f%%‘,
    startangle=140,
    colormap=‘viridis‘, # 使用现代风格的配色板
    wedgeprops={‘linewidth‘: 1, ‘edgecolor‘: ‘white‘}, # 关键：增加白边，扇形更清晰
    figsize=(10, 8)
)

plt.title(‘产品销售占比分布 (长尾数据已合并)‘, fontsize=16)
plt.ylabel(‘‘)
plt.show()

深度解析：

这段代码展示了 可复用性 的思想。我们没有写死逻辑，而是封装了一个函数 INLINECODE8f3228c0。这种做法在云原生应用中尤为重要，因为数据处理逻辑可能会在多个微服务之间复用。通过 INLINECODEa173c1c4，我们给每个扇形增加了切割线，这在多类别对比中是提升可读性的关键细节。

故障排查与调试：当图表“不听话”时

即使是在经验丰富的工程师手中，数据可视化也经常遇到令人头疼的 Bug。在 2026 年，虽然 AI 能够帮助我们快速定位问题，但了解底层原理依然至关重要。

#### 1. 中文标签乱码问题

如果你在 DataFrame 中使用了中文标签，生成的图表很可能会显示为方框 □□。这是 Matplotlib 的经典“坑”。

解决方案：

我们需要修改 Matplotlib 的配置字典 rcParams。在现代开发中，我们通常创建一个单独的配置文件或在 Jupyter Notebook 的第一个单元格中统一设置。

import matplotlib.pyplot as plt

# 配置字体，确保中文正常显示
# Windows系统通常使用 SimHei, Mac系统可能需要 Arial Unicode MS
plt.rcParams[‘font.sans-serif‘] = [‘SimHei‘] 

# 解决负号‘-‘显示为方块的问题
plt.rcParams[‘axes.unicode_minus‘] = False 

# 测试一下
plt.figure()
plt.text(0.5, 0.5, ‘中文测试‘, fontsize=20)
plt.show()

#### 2. 饼图被“压缩”成椭圆

这通常是因为 Matplotlib 画布的纵横比与数据不匹配。在 Web 后端生成图片时，这个问题尤为常见。

解决方案：

强制坐标轴比例相等。

ax = df.plot(kind=‘pie‘, y=‘Amount‘)
ax.set_aspect(‘equal‘) # 强制长宽比为1:1
# 或者使用 plt.axis(‘equal‘) 在全局设置

性能优化与云原生部署

当我们把饼图生成功能部署到 Serverless 环境（如 AWS Lambda 或 Vercel Edge Functions）时，效率就是金钱。Pandas 的 .plot() 虽然方便，但它引入了 Matplotlib 的完整依赖，这在冷启动时会非常慢。

优化建议：

直接使用 Matplotlib： 跳过 Pandas 的封装层。Pandas 的 plot 做了很多类型推断和元数据处理，如果数据已经是聚合好的，直接用 plt.pie() 会更快。
Agg 后端： 在服务器端，我们不需要 GUI 窗口。必须在代码最开始设置非交互式后端。

import matplotlib
# 必须在 import pyplot 之前设置
matplotlib.use(‘Agg‘) 
import matplotlib.pyplot as plt

# 接着进行你的绘图操作...
# 保存到内存流
from io import BytesIO
buf = BytesIO()
plt.savefig(buf, format=‘png‘, bbox_inches=‘tight‘)
plt.close()

这种设置可以节省数百毫秒的初始化时间，对于高并发的 AI 应用来说，这是决定用户体验的关键。

总结与展望

在这篇文章中，我们不仅回顾了如何从 Pandas DataFrame 创建基础的饼图，还深入探讨了 2026 年技术背景下的高级应用。从 Vibe Coding 辅助的数据清洗逻辑，到处理长尾数据的函数式编程思想，再到云原生环境下的性能调优，这些都是现代数据工程师必备的技能。

关键要点回顾：

数据准备是关键： 永远先用 groupby 整理数据，不要试图让图表去处理杂乱的原始数据。
细节决定成败： wedgeprops（白边）和现代配色方案能极大地提升图表质感。
AI 是你的副驾驶： 利用 AI 工具来生成复杂的数据清洗逻辑（如聚合函数），让我们专注于数据洞察而非语法细节。
性能思维： 在生产环境中，注意后端选择和绘图开销，确保服务响应迅速。

希望这篇文章能帮助你在数据可视化的道路上更进一步，无论是制作精美的报告，还是构建高性能的 AI 数据应用。让我们继续探索数据的奥秘吧！

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客

如何从 Pandas DataFrame 创建专业级饼图：全面指南

准备工作

基础示例：从 DataFrame 生成第一个饼图

进阶技巧：让饼图更专业、更易读

企业级数据处理：AI 时代的“长尾”聚合策略

故障排查与调试：当图表“不听话”时

性能优化与云原生部署

总结与展望

相关文章美国1G带宽/1T流量高速vps $17.99/年