深入解析：如何在 Pandas GroupBy 中灵活计算任意百分位数

2026-02-14 00:09:24 0条评论 53次阅读 0人点赞

在数据分析和数据科学的工作中，我们经常面临这样的挑战：处理海量数据并从中提取有意义的统计信息。虽然平均值和中位数能告诉我们数据的“中心”在哪里，但在实际的业务场景中，仅仅了解中心趋势往往是不够的。比如，作为数据分析师，你可能不仅想知道用户的平均消费额，更想了解“前 10% 的土豪用户”的消费门槛是多少，或者 90% 的用户的等待时间都在多少秒以内。这时候，我们就需要一个能够衡量数据分布情况的强大工具——百分位数。

在 Python 的 Pandas 库中，INLINECODEff4075a3 是我们进行数据分组分析的神器，而配合 INLINECODEaccccb26 函数，我们就能在分组后轻松计算任意百分位数。在今天的文章中，我们将深入探讨如何利用 Pandas 的 groupby 功能来计算任意百分位数，从基础概念到实际代码应用，再到性能优化和常见陷阱，我们将一起全方位地掌握这一技能。

1 理解百分位数：不仅仅是中位数
2 Pandas 中的数据分组基础
3 核心：计算 Pandas 组的任意百分位数
4 实战进阶：从原始数据到完整分析
5 常见问题与解决方案
6 性能优化与最佳实践
7 总结

理解百分位数：不仅仅是中位数

在开始写代码之前，让我们先确保我们对“百分位数”的理解是一致的。简单来说，百分位数是一个数值，它告诉我们数据中有百分之多少的值小于或等于这个数值。

第 50 百分位数（P50）：这就是我们熟悉的中位数。它将数据集分为两半，50% 的数据在其之下，50% 的数据在其之上。
第 90 百分位数（P90）：这意味着 90% 的数据值都小于或等于这个值，只有 10% 的数据比它大。这在性能分析中非常关键（例如“99% 的请求响应时间都在 200ms 以内”）。
第 25 和第 75 百分位数（P25, P75）：通常用来确定四分位距（IQR），帮助我们发现数据中的异常值。

在 Pandas 中，我们可以使用 quantile() 函数轻松计算这些值，也可以结合 NumPy 的函数来实现同样的目的。但如何在分组后针对每一组计算这些值，才是我们今天要解决的核心问题。

Pandas 中的数据分组基础

Pandas 的 INLINECODEc935cf59 方法允许我们根据一列或多列的唯一值将数据分割成不同的“组”，然后我们可以对每一组应用聚合函数（如求和 INLINECODEfec7c5b1、平均 INLINECODE27b0d92f 或计数 INLINECODEb53a5ec5）。在计算百分位数之前，让我们先快速通过一个完整的例子，复习一下如何创建数据并进行分组。

准备工作：安装与导入

首先，确保你的环境中安装了 Pandas。如果还没有，请在终端中运行以下命令：

pip install pandas numpy

创建示例数据集

为了演示，让我们手动创建一个简单的数据集。假设我们有不同类别的商品销售记录。

import pandas as pd

# 定义数据字典
data = {
    ‘Category‘: [‘A‘, ‘A‘, ‘A‘, ‘B‘, ‘B‘, ‘B‘, ‘C‘, ‘C‘, ‘C‘],
    ‘Value‘: [10, 20, 30, 40, 50, 60, 70, 80, 90]
}

# 创建 DataFrame
df = pd.DataFrame(data)

# 打印原始数据
print("原始数据集:")
print(df)

基础分组操作

现在，让我们使用 groupby 按照类别对数据进行分组，并计算总和。这是我们熟悉的基础操作。

# 按 Category 分组并计算 Value 的总和
grouped_sum = df.groupby(‘Category‘)[‘Value‘].sum()

print("
分组后的总和:")
print(grouped_sum)

输出结果将会显示 A、B、C 三个组别的总和。理解了这个基础，我们就可以进阶到计算更复杂的统计量——百分位数。

核心：计算 Pandas 组的任意百分位数

在 Pandas 的分组对象上计算百分位数主要有两种主流方法：一种是直接使用 Pandas 自带的 INLINECODE331ea16a 方法，这是最简洁、最推荐的方式；另一种是结合使用 INLINECODE5879f530 方法和 NumPy 的 percentile() 函数，这种方法在某些需要自定义逻辑的场景下非常有用。让我们逐一来看。

方法 1：使用 Pandas 的 `quantile()` 函数（推荐）

这是最直接的方法。Pandas 的 INLINECODE6d84021b 对象直接支持 INLINECODEd2f6a10a 方法。你只需要传入 0 到 1 之间的浮点数即可。

语法： df.groupby(‘Column‘)[‘Value‘].quantile(0.XX)

#### 示例 1：计算单一组别的特定百分位数

假设我们要找出每个类别中第 25 百分位数（即该组内排名前 25% 的数据分界线）。

# 计算每个 Category 的第 25 百分位数
# 0.25 代表 25%
percentile_25 = df.groupby(‘Category‘)[‘Value‘].quantile(0.25)

print("第 25 百分位数 (25th Percentile):")
print(percentile_25)

代码解释：

df.groupby(‘Category‘)：我们将数据按 ‘Category‘ 列分成了三堆。
[‘Value‘]：我们只关心 ‘Value‘ 这一列数值。
.quantile(0.25)：我们对每一堆数据计算其第 25 百分位的值。

#### 示例 2：同时计算多个百分位数

如果你想一次性计算第 25、50（中位数）和 75 百分位数，直接传入一个列表即可。这是一个非常实用的技巧，能让你快速了解数据的分布全貌。

# 同时计算多个百分位数
multiple_percentiles = df.groupby(‘Category‘)[‘Value‘].quantile([0.25, 0.5, 0.75])

print("
多分位数计算结果 (25%, 50%, 75%):")
print(multiple_percentiles)

在这个结果中，你可能会看到一个多层索引，这非常有助于你对比不同组别在不同分位点上的表现。

方法 2：使用 `agg()` 结合 NumPy

虽然 Pandas 的原生函数很强大，但有时你可能需要更灵活的控制，或者你想使用 NumPy 的特定插值算法。这时，我们可以使用 INLINECODE1752e795（聚合）函数，并应用 NumPy 的 INLINECODEce32c7cc。

注意： NumPy 的 INLINECODEb0625eaa 接受的是 0-100 的数值，而 Pandas 的 INLINECODE6a40a952 接受的是 0-1 的数值，这里有个细微的区别。

#### 示例 3：自定义聚合函数

import numpy as np

# 定义一个计算第 90 百分位数的函数
def get_90th_percentile(x):
    return np.percentile(x, 90)

# 使用 agg 应用这个自定义函数
percentile_90 = df.groupby(‘Category‘)[‘Value‘].agg(get_90th_percentile)

print("
第 90 百分位数 (使用 NumPy):")
print(percentile_90)

或者，更 Pythonic 的写法是直接使用 lambda 函数，这在数据分析中非常常见：

# 使用 lambda 函数计算第 95 百分位数
percentile_95 = df.groupby(‘Category‘)[‘Value‘].agg(lambda x: np.percentile(x, 95))

print("
第 95 百分位数 (使用 Lambda):")
print(percentile_95)

实战进阶：从原始数据到完整分析

让我们通过一个更贴近现实的数据集来进行一次完整的实战演练。假设我们有一组关于不同城市员工工资的数据。

示例 4：多维度分位数分析

import pandas as pd
import numpy as np

# 模拟一个更复杂的工资数据集
np.random.seed(42) # 设置随机种子以保证结果可复现

salary_data = pd.DataFrame({
    ‘City‘: np.random.choice([‘New York‘, ‘San Francisco‘, ‘Austin‘, ‘Seattle‘], 200),
    ‘Department‘: np.random.choice([‘HR‘, ‘Tech‘, ‘Sales‘], 200),
    ‘Salary‘: np.random.randint(50000, 150000, 200)
})

print("数据预览:")
print(salary_data.head())

# 场景：我们需要分析每个城市的工资分布情况
# 计算每个城市工资的第 10, 50 (中位数), 90 百分位数
salary_stats = salary_data.groupby(‘City‘)[‘Salary‘].quantile([0.1, 0.5, 0.9]).unstack()

print("
各城市工资分布统计:")
print(salary_stats)

实用见解： 在这个例子中，我们使用了 .unstack()，这将原本嵌套的索引结果转换成了一个清晰的表格，行是城市，列是不同的分位点。这种格式非常适合生成报告或导入 Excel 进行进一步分析。

示例 5：多列分组

有时候我们需要按多个维度分组。比如，我们要看每个城市的每个部门的工资分布。

# 按 City 和 Department 双重分组，计算第 75 百分位数
multi_group = salary_data.groupby([‘City‘, ‘Department‘])[‘Salary‘].quantile(0.75)

print("
城市与部门双维度分组结果 (75th Percentile):")
print(multi_group.head(10))

这会返回一个具有多级索引的 Series，你可以根据需要重置索引 (reset_index()) 将其变回 DataFrame 格式。

常见问题与解决方案

在使用这些技术时，你可能会遇到一些常见的问题。这里我们列出了几个最关键的，并提供了解决方案，帮助你避免踩坑。

1. 空值（NaN）的处理

如果你的数据中包含 NaN（空值），Pandas 默认会自动忽略它们进行计算。这在大多数情况下是理想的。但是，如果你希望空值参与计算或者需要在计算前填充它们，你需要先进行处理。

# 填充空值后计算百分位数
df_filled = df.fillna(0) # 或者使用均值填充 df.fillna(df.mean())
result = df_filled.groupby(‘Category‘)[‘Value‘].quantile(0.5)

2. 插值方法的差异

百分位数的计算在分位点位置处于两个数据点之间时，涉及“插值”问题。

Pandas 默认：使用 linear 插值。

你可以在 INLINECODE8f4974ed 函数中通过 INLINECODEbb4f4ec4 参数（在较新版本中称为 INLINECODEe52585d5）来修改这一行为，例如 INLINECODEfae91e10, INLINECODE1250014d, INLINECODE3363b870, INLINECODE079495c3, INLINECODEb2e6500c。如果你的业务逻辑对边界值极其敏感，请务必确认你使用了正确的插值方法。

# 使用不同的插值方法
df.groupby(‘Category‘)[‘Value‘].quantile(0.5, interpolation=‘midpoint‘)

3. 类型错误

当你试图对非数值类型（如字符串）的列计算百分位数时，Pandas 会抛出错误。确保你只对数值列应用 INLINECODE691c0e25，或者使用 INLINECODE00e1b206 先筛选出数值列。

性能优化与最佳实践

处理大型数据集时，计算百分位数可能会变得昂贵。以下是一些实用的优化建议：

优先使用内置方法：尽可能使用 INLINECODE45a89966 而不是 INLINECODE82001e31。Pandas 的内置方法通常是向量化的，底层由 C 语言实现，速度远快于 Python 循环或 apply。
减少数据量：如果不需要所有列，在进行分组前先通过 df[[‘Category‘, ‘Value‘]] 只选择你需要的列。这能显著减少内存消耗。
数据类型优化：如果你的数值列占用空间过大（例如默认的 INLINECODE43453491），考虑将其转换为 INLINECODEb8e144f7 或 int32，这有时能提升处理速度。

总结

在这篇文章中，我们不仅学习了如何使用 INLINECODEbcb6c57a 和 INLINECODE95451e83，还深入探讨了自定义聚合函数、处理现实中的复杂数据集以及如何避免常见错误。

计算任意百分位数是数据探索中不可或缺的一部分，它能揭示平均数掩盖下的真相。无论是为了排除极端值的影响，还是为了设定服务等级协议（SLA），掌握这些技巧都使你在数据分析的道路上更加游刃有余。下一次当你拿到一份杂乱的数据表时，不妨试试看用这些方法把它拆解开来，深入分析每一组的内部特征！

希望这篇指南对你有帮助。如果你正在处理特定的数据集，或者对 Pandas 的其他高级功能感兴趣，继续探索和实践是掌握它的关键。祝你数据分析愉快！

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客

深入解析：如何在 Pandas GroupBy 中灵活计算任意百分位数

理解百分位数：不仅仅是中位数

Pandas 中的数据分组基础

准备工作：安装与导入

创建示例数据集

基础分组操作

核心：计算 Pandas 组的任意百分位数

方法 1：使用 Pandas 的 `quantile()` 函数（推荐）

方法 2：使用 `agg()` 结合 NumPy

实战进阶：从原始数据到完整分析

示例 4：多维度分位数分析

示例 5：多列分组

常见问题与解决方案

1. 空值（NaN）的处理

2. 插值方法的差异

3. 类型错误

性能优化与最佳实践

总结

相关文章美国1G带宽/1T流量高速vps $17.99/年

深入解析：如何在 Pandas GroupBy 中灵活计算任意百分位数

理解百分位数：不仅仅是中位数

Pandas 中的数据分组基础

准备工作：安装与导入

创建示例数据集

基础分组操作

核心：计算 Pandas 组的任意百分位数

方法 1：使用 Pandas 的 quantile() 函数（推荐）

方法 2：使用 agg() 结合 NumPy

实战进阶：从原始数据到完整分析

示例 4：多维度分位数分析

示例 5：多列分组

常见问题与解决方案

1. 空值（NaN）的处理

2. 插值方法的差异

3. 类型错误

性能优化与最佳实践

总结

相关文章美国1G带宽/1T流量高速vps $17.99/年

方法 1：使用 Pandas 的 `quantile()` 函数（推荐）

方法 2：使用 `agg()` 结合 NumPy