深入理解 NumPy argsort：原理、应用与最佳实践

2026-02-15 17:02:40 0条评论 71次阅读 0人点赞

在数据科学和数值计算的日常工作中，我们经常遇到这样的情况：我们需要对一个庞大的数据集进行排序，但直接打乱原始数据的顺序并不是一个好主意，因为这会丢失原始数据的上下文。或者，我们需要根据某一列的值对另一列数据进行重排。这时，NumPy 中的 numpy.argsort() 函数就成了我们手中的得力工具。

在这篇文章中，我们将深入探讨 numpy.argsort() 的方方面面。我们不仅会学习它的基本语法，还会通过丰富的实例看看它在实际场景中是如何工作的，甚至分享一些优化代码性能的实用技巧。无论你是正在处理复杂的矩阵运算，还是仅仅是想找出数组中前 N 大的值，这篇文章都将为你提供清晰的解答。

1 什么是 argsort？
2 深入语法与参数
3 多维数组中的 Axis 参数
4 实战应用场景
5 性能优化与最佳实践
6 总结

什么是 argsort？

简单来说，numpy.argsort() 是一个间接排序函数。它并不直接返回排序后的数值，而是返回索引数组。这些索引告诉我们可以按照什么顺序从原始数组中取出元素，从而得到一个有序的结果。

让我们通过一个最简单的例子来直观感受一下。假设我们有一个包含不同大小数字的数组，我们想知道如何排列这些数字的“位置”才能使它们从小到大排列。

基础示例

import numpy as np

# 定义一个打乱的整数数组
a = np.array([2, 0, 1, 5, 4, 1, 9])

# 调用 argsort
idx = np.argsort(a)

print("原始数组:", a)
print("排序索引:", idx)

# 利用索引获取排序后的数组
print("排序结果:", a[idx])

输出：

原始数组: [2 0 1 5 4 1 9]
排序索引: [1 2 5 0 4 3 6]
排序结果: [0 1 1 2 4 5 9]

代码解析

原始数组 INLINECODE6b5244fc：我们看到了杂乱的数字 INLINECODE0bd3f03d。
排序索引 INLINECODE152da916：这是 INLINECODE67980bf4 返回的核心结果。让我们解读一下 [1 2 5 0 4 3 6]：

* 索引 INLINECODE52e66677 对应的值是 INLINECODEdbdcc333（最小的）。

* 索引 INLINECODEd62e0f51 对应的值是 INLINECODEc4cfc686（次小的）。

* 索引 INLINECODE496691ef 对应的值也是 INLINECODE0efe3b87（重复值按出现顺序排列）。

获取排序结果：通过 NumPy 的花式索引 机制，我们可以直接传入索引数组 INLINECODE8cb30232，即 INLINECODEdab0fc75，从而瞬间得到排序后的数组。

这种方法的好处在于，原始数组 a 的位置信息被完美保留了。这对于处理多维数据或相关联的数据集至关重要。

深入语法与参数

为了全面掌握这个工具，我们需要了解它的完整签名。官方定义如下：

numpy.argsort(a, axis=-1, kind=None, order=None)

参数详解

a (array_like)：这是我们要处理的输入数组。这可以是普通的数组、矩阵，甚至是嵌套列表。
axis (int 或 None)：这是处理多维数组时的关键参数。默认值是 INLINECODEd70143b3，即沿着数组的最后一个轴（通常是行）进行排序。稍后我们会详细演示 INLINECODE0360b6f6 的用法。
kind ({‘quicksort‘, ‘mergesort‘, ‘heapsort‘, ‘stable‘})：这指定了排序算法。

* quicksort（快速排序）：默认选项，平均速度最快，通常为 O(n log n)，但最坏情况可能退化。

* mergesort（归并排序）：稳定排序，保证相等元素的相对顺序不变，但在大数据量下可能需要更多内存。

* heapsort（堆排序）：最坏情况下也是 O(n log n)，但不稳定。

* stable：自动选择稳定的排序算法。

order (str 或 list of str)：这个参数在处理结构化数组（类似于数据库表或 CSV 数据）时非常有用。你可以指定按照哪个“字段”进行排序。

返回值

函数返回一个索引数组 INLINECODE3a380249，其形状与输入数组 INLINECODEa5e67299 相同（除非指定了 INLINECODE903f42ad）。这个数组包含了沿着指定轴对 INLINECODEe1875e1f 进行排序的索引。

多维数组中的 Axis 参数

在实际工作中，我们处理的多是一维数组，但二维数组（矩阵）甚至更高维的数据也随处可见。理解 axis 参数是掌握高维数据处理的关键。

示例 1：理解 Axis 0 和 Axis 1

让我们创建一个二维数组，并观察不同轴向上的排序结果。

import numpy as np

# 创建一个 2x3 的二维数组
arr = np.array([[2, 0, 1], 
                [5, 4, 3]])

print("原始数组:
", arr)

# Axis 0: 沿着列向下排序（纵向）
# 这意味着它会比较第0行的第0列和第1行的第0列
idx_axis0 = np.argsort(arr, axis=0)
print("
Axis 0 的排序索引:
", idx_axis0)

# Axis 1: 沿着行向右排序（横向）
# 这意味着它会对每一行分别进行排序
idx_axis1 = np.argsort(arr, axis=1)
print("
Axis 1 的排序索引:
", idx_axis1)

输出：

原始数组:
 [[2 0 1]
 [5 4 3]]

Axis 0 的排序索引:
 [[0 0 0]
 [1 1 1]]

Axis 1 的排序索引:
 [[1 2 0]
 [2 1 0]]

深度解析

Axis 0 (纵向)：看第一列 INLINECODE105f9ad1。因为 INLINECODE0ef4fb71，所以 INLINECODEf2ca70d9 (索引0) 排在前面，INLINECODEe46295b2 (索引1) 排在后面。所以输出是 [[0], [1]]。这一逻辑对所有列适用。如果我们想对整个矩阵按列重排，利用这个索引即可。
Axis 1 (横向)：看第一行 [2, 0, 1]。

* 最小值是 0 (原索引1)。

* 次小值是 1 (原索引2)。

* 最大值是 2 (原索引0)。

* 所以输出索引是 [1, 2, 0]。这正是我们在第一行看到的输出结果。

实战应用场景

仅仅知道语法是不够的，让我们看看在解决实际问题时，argsort 是如何发挥作用的。

示例 2：找出“最大的 K 个元素”

在机器学习或数据分析中，我们经常需要找出得分最高的几项（例如 Top-K 准确率计算，或者推荐系统）。

假设我们有一组学生的考试成绩，我们想找出分数最高的前三名学生。

import numpy as np

scores = np.array([88, 92, 75, 89, 95, 60])
k = 3

# 步骤 1: 获取整个数组的排序索引
# 默认是升序，所以最大的值在最后面
sorted_indices = np.argsort(scores)

# 步骤 2: 切片获取最后 k 个索引
# 这对应于分数最高的 k 个学生
top_k_indices = sorted_indices[-k:]

# 步骤 3: 如果我们希望结果是从高到低排列的，反转一下索引
top_k_indices_descending = top_k_indices[::-1]

print("所有学生的分数:", scores)
print("最高分学生的索引:", top_k_indices_descending)
print("具体的最高分:", scores[top_k_indices_descending])

输出：

所有学生的分数: [88 92 75 89 95 60]
最高分学生的索引: [4 1 3]
具体的最高分: [95 92 89]

技巧提示： 这种方法比直接对整个数组排序要高效得多，特别是当你只需要 Top-K 结果而不关心其余数据的顺序时。

示例 3：对结构化数组/字典列表排序

处理类似 Excel 表格的数据时，数据往往包含多个字段（例如：姓名、年龄、工资）。INLINECODEc1dcbe02 的 INLINECODE8922d97e 参数在这里非常强大。

import numpy as np

# 定义一个结构化数组的数据类型
dtype = [(‘name‘, ‘U10‘), (‘age‘, int), (‘salary‘, int)]

# 创建数据：姓名，年龄，薪水
employees = np.array([
    (‘Alice‘, 25, 70000),
    (‘Bob‘, 30, 50000),
    (‘Charlie‘, 25, 80000),
    (‘David‘, 35, 120000),
], dtype=dtype)

# 场景 1: 仅根据薪水排序
print("按薪水排序的索引:")
idx_salary = np.argsort(employees, order=‘salary‘)
print(employees[idx_salary][‘name‘])  # 输出: Bob, Alice, Charlie, David

# 场景 2: 先按年龄排序，年龄相同再按薪水排序
# 这是一个非常实用的功能，类似于 SQL 中的 ORDER BY age, salary
print("
按年龄和薪水排序的索引:")
idx_complex = np.argsort(employees, order=[‘age‘, ‘salary‘])
print(employees[idx_complex])
# 输出结果将是: Alice (25/7w), Charlie (25/8w), Bob (30/5w), David (35/12w)

关键点： 这里的排序逻辑非常清晰，不需要我们自己写复杂的 lambda 函数或循环，NumPy 直接在底层 C 代码中高效完成了多级排序。

示例 4： argsort 的双重技巧

这是一个非常经典的面试题或算法技巧：如何给数组中的每个元素分配一个“排名”？ 即：最小的值排名为 0，次小的为 1，以此类推。

如果你直接对数组排序，你会得到值，但丢失了它们原来的位置。如果你用 argsort，你会得到它们应该去的位置。那么，如何得到它们的排名呢？答案是：argsort 两次。

import numpy as np

data = np.array([50, 10, 30, 20, 40])

# 第一次 argsort: 得到如果我们要排序，应该取哪些元素
# 相当于问：“谁是第1小？谁是第2小？”
inverse_sort_indices = np.argsort(data)
print("第一次 argsort (排序用的索引):", inverse_sort_indices)
# 输出: [1 3 2 4 0] (代表 10, 20, 30, 40, 50 的原始位置)

# 第二次 argsort: 对上面的索引数组再次 argsort
# 相当于问：“原数组中的第 i 个元素，它在有序序列中排第几？”
ranks = np.argsort(inverse_sort_indices)
print("最终排名:", ranks)
# 输出: [4 0 2 1 3]
# 验证: 50 排第4, 10 排第0, 30 排第2, 20 排第1, 40 排第3

这个技巧在计算斯皮尔曼相关系数 或处理竞赛排名数据时非常有用。

性能优化与最佳实践

在我们结束之前，我想分享一些关于性能的见解。当你处理数百万级数据时，这些细节至关重要。

1. 选择合适的排序算法

默认的 INLINECODEda7338a7 虽然快，但不稳定。如果你正在处理时间序列数据，或者不仅关心值的大小还关心它们的相对顺序（例如先来后到），建议显式指定 INLINECODE24c2d1f9 或 kind=‘stable‘。

# 保证稳定排序
np.argsort(data, kind=‘stable‘)

2. 尽量使用花式索引，避免 Python 循环

你可能想用 Python 的 INLINECODE59d40e88 循环来根据索引重建数组。千万不要这样做。NumPy 的 INLINECODEd7f152ad 操作是向量化的，运行速度是 Python 循环的几十倍甚至上百倍。

错误做法 (慢)：

sorted_list = [a[i] for i in idx]

正确做法 (快)：

sorted_array = a[idx]

3. 谨慎使用 Axis=None

当你对一个多维数组使用 INLINECODEa6980b4f 时，NumPy 会先将数组展平成一维，这非常方便，但也极易被忽视。如果你在处理图像数据（Height x Width x Channels），误用 INLINECODE8cb77070 会把像素彻底打乱，导致图像损坏。总是明确指定你的 axis。

总结

在这篇文章中，我们探索了 numpy.argsort() 这个看似简单却功能强大的函数。我们了解到：

核心功能：它返回的是排序后的索引，而不是值，这保留了原始数据的上下文。
多维处理：通过 axis 参数，我们可以灵活地在行、列或整个张量上进行排序操作。
实战技巧：无论是查找 Top-K 元素、处理结构化数据的多级排序，还是计算元素排名，argsort 都能提供简洁高效的解决方案。

下次当你面对需要排序但又不能简单打乱顺序的数据时，请记得 argsort 可能正是你需要的那个工具。动手试试这些例子吧，或者在你当前的项目中尝试重构一段代码，看看 NumPy 的威力。

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客

深入理解 NumPy argsort：原理、应用与最佳实践

什么是 argsort？

基础示例

代码解析

深入语法与参数

参数详解

返回值

多维数组中的 Axis 参数

示例 1：理解 Axis 0 和 Axis 1

深度解析

实战应用场景

示例 2：找出“最大的 K 个元素”

示例 3：对结构化数组/字典列表排序

示例 4： argsort 的双重技巧

性能优化与最佳实践

1. 选择合适的排序算法

2. 尽量使用花式索引，避免 Python 循环

3. 谨慎使用 Axis=None

总结

相关文章美国1G带宽/1T流量高速vps $17.99/年