深入解析 Pandas DataFrame.rank()：从原理到实战的数据排名指南

2026-02-09 11:13:06 0条评论 90次阅读 0人点赞

在处理数据分析和统计任务时，你是否经常需要找出数据集中的“Top N”项，或者根据数值大小给每一行数据打分？例如，在分析销售业绩时，我们需要知道每位销售人员在整个团队中的排名；或者在处理学生成绩时，我们需要快速定位不及格的学生。

Python 的 Pandas 库为我们提供了极其强大的工具来应对这些挑战。在这篇文章中，我们将深入探讨 DataFrame.rank() 方法。你将学习到如何利用它来对数据进行排名，以及如何通过不同的参数处理并列排名、空值等复杂情况。让我们一起来揭开这个功能的神秘面纱，看看它如何简化我们的数据工作流。

什么是数据排名？

在开始写代码之前，我们需要先明确“排名”的概念。在 Pandas 中，rank() 方法的作用是返回传入的 Series 或 DataFrame 在某个轴上每个对应条目的排名（从 1 开始）。简单来说，它不是返回排序后的数据，而是返回每一行数据在“排序后”的位置索引。

关键点： 排名是基于排序后的位置返回的，这意味着它不改变原始数据的顺序，而是生成一个新的列来表示名次。

基础示例：如何开始

让我们从一个最简单的例子开始。想象一下，我们有一个包含几列数据的 DataFrame，其中 ‘A‘ 列包含了一些数值。我们想要计算 ‘A‘ 列中每个值的排名。

import pandas as pd
import numpy as np

# 创建一个示例 DataFrame
data = {
    ‘A‘: [1, 2, 2, 3, 4],
    ‘B‘: [5, 6, 7, 8, 9],
    ‘C‘: [1, 1, 1, 1, 1]
}

df = pd.DataFrame(data)

# 对 ‘A‘ 列进行排名，并将结果存储在新列 ‘A_rank‘ 中
df[‘A_rank‘] = df[‘A‘].rank()

print(df)

输出结果：

   A  B  C  A_rank
0  1  5  1     1.0
1  2  6  1     2.5
2  2  7  1     2.5
3  3  8  1     4.0
4  4  9  1     5.0

代码解读：

数值 1 是最小的，所以排名为 1。
有两个 2，它们并列排在第二位。默认情况下，Pandas 使用 average 方法，即取它们排名的平均值 (2.0 + 3.0) / 2 = 2.5。
数值 3 紧随其后，排在第 4 位。
数值 4 是最大的，排在第 5 位。

深入语法：掌握核心参数

要熟练使用 rank()，我们不仅要会用默认值，更要理解它的各个参数。让我们看看它的完整语法。

语法：
DataFrame.rank(axis=0, method=‘average‘, numeric_only=None, na_option=‘keep‘, ascending=True, pct=False)

#### 1. method：处理并列名次的策略

这是最常被误解但也最重要的参数。当数据中存在相同的值时，我们该如何分配排名？method 参数提供了以下几种策略：

‘average‘ (默认): 平均排名。如果两个值并列第一，它们都取 1.5。
‘min‘: 最小排名。如果两个值并列第一，它们都取 1，下一个值取 3。
‘max‘: 最大排名。如果两个值并列第一，它们都取 2，下一个值取 3。
‘first‘: 先到先得。按照数据在 DataFrame 中出现的顺序分配排名，第一个出现的取 1，第二个取 2。
‘dense‘: 密集排名。类似于“保底排名”，排名连续增加。例如 1, 1, 2, 3（没有跳过数字）。

#### 2. na_option：空值的处理方式

现实数据往往是不完美的，充满了 INLINECODEcdea1acf（空值）。我们可以通过 INLINECODE10ef1623 来决定空值在排名中的位置：

‘keep‘: 保持空值不变（返回 NaN）。
‘top‘: 将空值视为最小值，排在最前面（排名为 1）。
‘bottom‘: 将空值视为最大值，排在最后面。

#### 3. ascending：升序还是降序

True (默认): 数值最小的排第 1（比如比赛用时最短者获胜）。
False: 数值最大的排第 1（比如销售业绩最高者获胜）。

#### 4. pct：百分比排名

如果设置为 True，排名将显示为百分位数（0 到 1 之间），这在统计分析中非常有用。

实战案例 1：学生成绩排名（唯一值）

首先，我们来看一种理想情况：所有数值都是唯一的。我们创建一个包含学生姓名和分数的 DataFrame。

场景： 我们需要对学生成绩进行排名，看看谁是第一名。

import pandas as pd

# 模拟数据
data = {
    ‘Name‘: [‘Alice‘, ‘Bob‘, ‘Charlie‘, ‘David‘, ‘Eva‘],
    ‘Score‘: [88, 92, 75, 95, 82]
}

df = pd.DataFrame(data)

# 创建排名列，注意默认是升序（低分排在前面）
df[‘Rank_Asc‘] = df[‘Score‘].rank()

# 通常我们希望高分排在前面，所以使用 ascending=False
df[‘Rank_Desc‘] = df[‘Score‘].rank(ascending=False)

# 为了更直观，我们按照分数降序排序查看
df = df.sort_values(‘Score‘, ascending=False)

print(df[[‘Name‘, ‘Score‘, ‘Rank_Desc‘]])

分析：

在这个例子中，由于所有分数都不相同，排名是连续的整数。使用 ascending=False 可以确保最高分（David 的 95 分）获得了第 1 名。这种清晰的排名方式在展示“排行榜”时非常直观。

实战案例 2：处理并列名次

如果我们有多个学生考了相同的分数，会发生什么？让我们修改上面的数据。

import pandas as pd

data = {
    ‘Name‘: [‘Alice‘, ‘Bob‘, ‘Charlie‘, ‘David‘, ‘Eva‘, ‘Frank‘],
    ‘Score‘: [88, 92, 92, 95, 82, 88]
}

df = pd.DataFrame(data)

# 1. 默认方法：average
df[‘Rank_Avg‘] = df[‘Score‘].rank(ascending=False)

# 2. min 方法：谁并列谁占低位，下一名顺延
df[‘Rank_Min‘] = df[‘Score‘].rank(ascending=False, method=‘min‘)

# 3. max 方法：谁并列谁占高位，下一名顺延
df[‘Rank_Max‘] = df[‘Score‘].rank(ascending=False, method=‘max‘)

# 4. dense 方法：类似于 SQL 中的 DENSE_RANK()，排名连续
df[‘Rank_Dense‘] = df[‘Score‘].rank(ascending=False, method=‘dense‘)

# 5. first 方法：按出现顺序决出胜负
df[‘Rank_First‘] = df[‘Score‘].rank(ascending=False, method=‘first‘)

print(df)

详细解读：

Bob 和 Charlie 都是 92 分。

* Average: 他们的排名是 2.5（第 2 和第 3 的平均）。

* Min: 他们的排名都是 2。

* Dense: 他们都是第 2 名，但下一个分数（Alice 的 88 分）是第 3 名，而不是第 4 名。

Alice 和 Frank 都是 88 分。

* 在 First 方法中，因为 Alice 在 DataFrame 中排在 Frank 前面，所以 Alice 获得第 4 名，Frank 获得第 5 名。

这种对比能帮助你根据业务需求选择最合适的逻辑。例如，在分配奖金时，可能希望使用 INLINECODEad205281 或 INLINECODE91f443e0 以避免不公平；而在某些体育比赛中，可能需要 first 来打破平局。

实战案例 3：处理缺失值

数据清洗是数据分析中最耗时的部分之一。当数据中存在空值时，rank() 提供了非常灵活的处理方式。

import pandas as pd
import numpy as np

data = {
    ‘Product‘: [‘A‘, ‘B‘, ‘C‘, ‘D‘, ‘E‘],
    ‘Sales‘: [100, np.nan, 200, 150, np.nan]
}

df = pd.DataFrame(data)

# 默认情况下，NaN 会被保留为 NaN
df[‘Rank_Default‘] = df[‘Sales‘].rank(ascending=False)

# 将 NaN 视为“最差业绩”，排在最后
df[‘Rank_Bottom‘] = df[‘Sales‘].rank(ascending=False, na_option=‘bottom‘)

# 将 NaN 视为“特殊”，排在最前（这种情况较少见，但在特定逻辑下可能有用）
df[‘Rank_Top‘] = df[‘Sales‘].rank(ascending=False, na_option=‘top‘)

print(df)

应用场景：

Bottom: 适用于“未完成销售的人排在最后”的逻辑。
Top/Bottom: 可以用于将特定异常值（已被替换为 NaN）强制排在列表的开头或结尾，方便后续筛选。

实战案例 4：分组排名

这是一个非常高级且实用的技巧。想象你在分析一个包含多个部门的数据集，你想知道每个员工在自己部门内部的排名，而不是全公司的排名。

我们可以结合 INLINECODEb166e578 和 INLINECODE85f75b24 来实现这一点。

import pandas as pd

data = {
    ‘Employee‘: [‘Alice‘, ‘Bob‘, ‘Charlie‘, ‘David‘, ‘Eva‘, ‘Frank‘],
    ‘Department‘: [‘HR‘, ‘IT‘, ‘HR‘, ‘IT‘, ‘HR‘, ‘IT‘],
    ‘Score‘: [88, 92, 75, 95, 82, 90]
}

df = pd.DataFrame(data)

# 核心代码：按部门分组，然后对分数进行排名
df[‘Dept_Rank‘] = df.groupby(‘Department‘)[‘Score‘].rank(ascending=False)

print(df.sort_values([‘Department‘, ‘Dept_Rank‘]))

输出解析：

在这里，Alice、Charlie 和 Eva 都在 HR 部门。Alice (88) 在 HR 排第 1，Charlie (75) 排第 3。这种操作在处理层级数据时极其强大，无需写循环即可完成复杂的组内计算。

性能优化与最佳实践

虽然 Pandas 已经非常快，但在处理超大规模数据（例如数千万行）时，rank() 操作可能会消耗一些内存和时间。这里有几个建议：

指定数据类型： 如果你的排名列总是整数（且没有并列情况导致小数），可以在计算后强制转换类型，例如 .astype(int)，这能节省内存空间。
避免链式索引： 尽量使用 INLINECODE0ff03676 而不是 INLINECODEf010cc07，虽然后者语法糖很甜，但在复杂设置链中前者更稳定。
处理大文件： 如果数据太大无法一次性读入内存，可以考虑分块读取，或者使用 Dask 等库模拟 Pandas 操作。

总结与后续步骤

在这篇文章中，我们深入探讨了 Pandas rank() 方法的方方面面。从基本的默认排序，到处理复杂的并列名次，再到处理缺失数据和分组排名，你现在应该具备了在大多数数据分析场景下使用排名的能力。

关键要点：

INLINECODE26a21909 是默认的统计学处理方式，但在业务场景中，INLINECODEef4f4851 或 min 可能更符合直觉。
始终记得检查 NaN 对你的排名结果影响。
使用 groupby().rank() 可以轻松解决组内排名问题。

下一步建议：

你可以尝试在自己的数据集上应用这些技巧。特别是试着将 INLINECODE5384b551 的结果结合到筛选条件中，比如筛选出“排名前 10% 但收入低于平均”的异常数据。Pandas 的世界非常广阔，掌握 INLINECODEc6d480d0 只是精通数据科学之旅的一步。希望这篇文章能让你在处理数据排名问题时更加游刃有余！

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客