深入解析 NumPy 中的 np.unique() 方法：从基础到实战应用

2026-02-15 13:48:01 0条评论 46次阅读 0人点赞

在数据分析和科学计算中，我们经常遇到需要处理重复数据的情况。无论你是正在清洗一份杂乱的 CSV 文件，还是在处理大型矩阵运算，找出唯一值并进行去重都是必不可少的操作。今天，我们将深入探讨 Python NumPy 库中一个非常强大且灵活的工具——np.unique() 方法。在这篇文章中，我们不仅会学习它的基本用法，还会深入了解它的高级参数、底层原理以及在实际项目中的最佳实践。

为什么我们需要 np.unique()？

想象一下，你手头有一份包含数百万条销售记录的数据集，你需要知道总共有多少种不同的产品被售出，或者每个月有多少活跃用户。如果使用纯 Python 的循环来处理，效率可能会非常低下。这就是 NumPy 大显身手的时候。np.unique() 不仅能快速返回排序后的唯一元素，还能提供这些元素在原始数据中的位置、出现频率等丰富信息。让我们一起来探索这个功能的方方面面。

基础用法：快速去重

首先，让我们从最简单的场景开始。假设我们有一个包含重复数字的一维数组，我们的目标是提取出其中的唯一值。

在默认情况下，np.unique() 会执行以下三个操作：

找出数组中所有唯一的元素。
对这些元素进行升序排序。
返回一个新的 NumPy 数组。

下面是一个基础的代码示例：

import numpy as np

# 创建一个包含重复值的数组
data_array = np.array([10, 2, 5, 2, 10, 3, 5, 10])

# 使用 np.unique() 进行去重
unique_values = np.unique(data_array)

print("原始数组:", data_array)
print("去重后的数组:", unique_values)

输出结果：

原始数组: [10  2  5  2 10  3  5 10]
去重后的数组: [ 2  3  5 10]

原理解析：

在这个例子中，NumPy 自动遍历了 INLINECODEa426571c，丢弃了重复的 INLINECODEa33f9593、INLINECODE711bc5ea 和 INLINECODE628925d8，并将结果 INLINECODE4c927642 排序后返回。值得注意的是，返回的是一个全新的数组，原始数组 INLINECODEfaa36baa 不会被修改。

语法与参数详解

在深入更复杂的例子之前，让我们先全面了解一下 np.unique() 的函数签名。理解这些参数能帮助你解决更复杂的数据问题。

numpy.unique(ar, return_index=False, return_inverse=False, return_counts=False, axis=None)

#### 核心参数说明

INLINECODE8b86b585: 这是输入的类数组对象。除非你指定了 INLINECODE6fa8ffb2 参数，否则如果输入是多维数组，它会被默认展平为一维数组进行处理。
return_index: (默认为 False) 如果设为 True，函数除了返回唯一值外，还会返回一个索引数组。这个索引数组代表了这些唯一值第一次在原始数组中出现的位置。
return_inverse: (默认为 False) 如果设为 True，函数会返回一个“逆向索引”。这对于我们需要从唯一值数组重构原始数组非常有用，常用于将类别标签转换为数字索引。
return_counts: (默认为 False) 如果设为 True，函数会返回每个唯一元素在原始数组中出现的次数。这在数据分布分析中非常有用。
INLINECODE08deaf8f: (默认为 None) 指定操作所在的轴。例如，在二维数组中，INLINECODEdae2491a 表示按行去重（去除相同的行），axis=1 表示按列去重。如果为 None，数组会被展平。

实战案例：利用 return_index 追踪数据来源

有时候，我们不仅想知道唯一的值是什么，还想知道这些值最初来自数据的哪个位置。这在处理带时间戳的数据或需要回溯原始数据时非常有用。

让我们看看如何使用 return_index=True：

import numpy as np

# 假设我们有一组乱序的传感器读数
readings = np.array([50, 20, 30, 20, 50, 10, 30])

# 获取唯一值及其首次出现的索引
unique_vals, first_indices = np.unique(readings, return_index=True)

print("唯一读数:", unique_vals)
print("首次出现的索引:", first_indices)

# 验证索引
print("
验证结果:")
for val, idx in zip(unique_vals, first_indices):
    print(f"值 {val} 首次出现在索引 {idx} 处, 原数组该位置的值为: {readings[idx]}")

输出结果：

唯一读数: [10 20 30 50]
首次出现的索引: [5 1 2 0]

验证结果:
值 10 首次出现在索引 5 处, 原数组该位置的值为: 10
值 20 首次出现在索引 1 处, 原数组该位置的值为: 20
值 30 首次出现在索引 2 处, 原数组该位置的值为: 30
值 50 首次出现在索引 0 处, 原数组该位置的值为: 50

解析：

注意观察返回的索引 INLINECODEc61fc08e，它们对应的是排序后的唯一值 INLINECODE92c712a1。比如，INLINECODEde6a987c 虽然是最大的数，但它第一次出现在索引 INLINECODE298e029c 处。这个功能在我们需要提取“首次出现的有效记录”时非常方便。

实战案例：数据统计与 return_counts

在数据清洗和探索性数据分析（EDA）阶段，我们经常需要统计某个值出现的频率。虽然 Pandas 的 INLINECODE6f378047 很有名，但在 NumPy 环境下，INLINECODEe1f97401 配合 return_counts=True 同样强大，而且不需要引入额外的依赖库。

让我们统计一下一组考试成绩中各分数的分布情况：

import numpy as np

# 模拟一组考试成绩
scores = np.array([88, 92, 88, 75, 92, 88, 60, 75, 90])

# 获取唯一分数及其出现次数
unique_scores, counts = np.unique(scores, return_counts=True)

print("分数分布情况:")
for score, count in zip(unique_scores, counts):
    print(f"分数 {score}: 出现 {count} 次")

输出结果：

分数分布情况:
分数 60: 出现 1 次
分数 75: 出现 2 次
分数 88: 出现 3 次
分数 90: 出现 1 次
分数 92: 出现 2 次

实用见解：

这实际上是一个简单的直方图统计功能。你可以利用这个结果快速找出众数（出现次数最多的数，上例中是 88），或者分析数据的离散程度。这种方法在处理大规模数值数据时，比 Python 原生 list.count() 要快得多。

深入理解 return_inverse：从类别还原原始数据

return_inverse 参数虽然不太直观，但在机器学习的特征工程中非常关键。它通常用于将类别型数据（如字符串标签）转换为计算机易于处理的整数索引。

当你设置 INLINECODEea636d4d 时，INLINECODE75272e82 会返回第二个数组，这个数组可以看作是原始数组的“编码版”。通过这个编码和唯一值数组，我们可以完美地重构出原始数组。

让我们看一个例子：

import numpy as np

# 原始数组（包含重复和乱序的类别）
original_data = np.array([‘c‘, ‘b‘, ‘a‘, ‘b‘, ‘c‘, ‘a‘, ‘a‘])

# 获取唯一值和逆向索引
unique_data, inverse_indices = np.unique(original_data, return_inverse=True)

print("唯一值:", unique_data)
print("逆向索引:", inverse_indices)

# 重构原始数组
reconstructed_data = unique_data[inverse_indices]
print("重构后的数组:", reconstructed_data)

# 验证是否一致
print("重构是否成功:", np.array_equal(original_data, reconstructed_data))

输出结果：

唯一值: [‘a‘ ‘b‘ ‘c‘]
逆向索引: [2 1 0 1 2 0 0]
重构后的数组: [‘c‘ ‘b‘ ‘a‘ ‘b‘ ‘c‘ ‘a‘ ‘a‘]
重构是否成功: True

原理解析：

唯一值 [‘a‘, ‘b‘, ‘c‘] 是排序后的结果。
逆向索引 INLINECODE6cfc897d 的意思是：原始数组的第 0 个元素是 INLINECODE7199a5bb 中的第 2 个元素（即 ‘c‘）；原始数组的第 1 个元素是 unique_data 中的第 1 个元素（即 ‘b‘），以此类推。

这种机制在将字符串标签（如 ‘猫‘, ‘狗‘）转换为模型可读的数字（如 0, 1）时非常有用，因为我们可以通过 unique_data 随时将数字还原回含义。

进阶应用：处理多维数组与 Axis 参数

前面的例子我们主要处理了一维数组。但在处理图像数据（3D 数组）或表格数据（2D 数组）时，我们可能希望沿着特定的维度去重。这就用到了 axis 参数。

#### 示例：按行去除重复的记录

假设我们有一个二维数组，每一行代表一条用户记录。我们想要去除完全重复的行。

import numpy as np

# 创建一个 2D 数组，其中第 1 行和第 3 行是完全相同的
records = np.array([
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9],
    [1, 2, 3]  # 重复的行
])

# 使用 axis=0 沿垂直方向（行）去重
unique_records = np.unique(records, axis=0)

print("原始记录:
", records)
print("去重后的唯一记录:
", unique_records)

输出结果：

原始记录:
 [[1 2 3]
 [4 5 6]
 [7 8 9]
 [1 2 3]]
去重后的唯一记录:
 [[1 2 3]
 [4 5 6]
 [7 8 9]]

注意： 当使用 INLINECODEa9791eb3 参数时，NumPy 会对行进行排序。因此，去重后的结果行顺序可能会与原始数组不同。如果你需要保留原始顺序，通常需要结合 INLINECODE32711f70 来进行后续的排序处理，但那样会增加计算复杂度。

性能优化与最佳实践

虽然 np.unique() 非常方便，但在处理超大规模数据集时，我们需要注意一些细节以获得最佳性能。

时间复杂度：np.unique() 的核心操作是排序。众所周知，排序的平均时间复杂度是 O(N log N)。因此，随着数据量的增加，去重所需的时间会呈非线性增长。

内存消耗：该函数会返回至少一个新数组，如果启用了 INLINECODE17cb97cb 或 INLINECODEb9b3c199，则会返回多个数组。这意味着在峰值时刻，你的内存占用可能是原始数据的数倍。如果你的数组非常大（比如几十 GB），这可能会导致内存溢出（OOM）。在这种情况下，考虑分块处理数据或使用 Dask 等库。

数据类型：如果可能，尽量使用较低精度的数据类型（如 INLINECODE8b568e70 而非 INLINECODEb6f2ff37，或者 INLINECODE98bd6bff 而非 INLINECODEe7cf2bfd）。这不仅减少了内存占用，还能显著加快排序和比较的速度。

常见错误与解决方案

在使用 np.unique() 时，初学者常遇到的一个问题是关于结构化数组或包含 NaN（Not a Number）的数组。

NaN 的处理：在 IEEE 浮点数标准中，INLINECODEa8f793ef。然而，NumPy 的 INLINECODE043323e8 会将所有的 INLINECODE92763c01 视为相同的值，并将它们归为一类。这通常是符合预期的行为，但你需要意识到去重后的结果中只会保留一个 INLINECODEb2a08249。

    a = np.array([1, np.nan, 2, np.nan])
    print(np.unique(a)) # 输出: [ 1. nan  2.]

结构化数组：如果你处理的是包含多种数据类型的结构化数组，np.unique() 同样适用，它会根据所有字段的组合来判断唯一性。

总结与展望

我们在今天这篇文章中详细探讨了 NumPy 的 INLINECODE8a50f2b1 方法。从最基础的去重操作，到利用 INLINECODEcaeb7600 进行数据统计，再到利用 return_inverse 进行数据编码，这个函数的功能远超“去重”二字。

核心要点回顾：

基础用法：np.unique(ar) 返回排序后的唯一元素。
统计计数：使用 return_counts=True 可以快速统计元素频率。
索引追踪：使用 return_index=True 可以找到唯一值的原始位置。
数据重构：使用 return_inverse=True 可以实现原始数据与唯一值索引之间的互相转换。
多维处理：利用 axis 参数可以处理多维数组的行列去重。

掌握这个方法，能让你的数据清洗和预处理代码更加简洁、高效。下次当你面对杂乱的数据时，不妨试试 np.unique()，看看它能为你节省多少行繁琐的循环代码。

希望这篇文章对你有所帮助。现在，建议你打开自己的 Python 环境，试着用 np.unique() 处理一下你手头的真实数据集，感受一下它的效率吧！

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客

深入解析 NumPy 中的 np.unique() 方法：从基础到实战应用

为什么我们需要 np.unique()？

基础用法：快速去重

语法与参数详解

实战案例：利用 return_index 追踪数据来源

实战案例：数据统计与 return_counts

深入理解 return_inverse：从类别还原原始数据

进阶应用：处理多维数组与 Axis 参数

性能优化与最佳实践

常见错误与解决方案

总结与展望

相关文章美国1G带宽/1T流量高速vps $17.99/年