深入解析 R 语言中的 unique() 函数：去重与数据清洗的利器

2026-02-16 08:10:22 0条评论 4次阅读 0人点赞

在数据清洗和预处理的过程中，我们经常会遇到一个问题：数据集中存在重复的观测值或记录。这些重复项不仅会占用额外的存储空间，还可能导致我们的统计分析结果出现偏差。作为一名数据分析师或 R 语言开发者，掌握如何高效地识别和去除重复数据是必备的技能。今天，我们将深入探讨 R 语言中一个非常基础但功能强大的工具—— unique() 函数。通过这篇文章，你将不仅学会它的基本用法，还能深入了解其在复杂数据结构中的应用技巧，以及一些高级的性能优化策略。

`unique()` 函数的核心机制

简单来说，unique() 函数的作用是去除向量、数据框或数组中的重复元素，只保留独一无二的值或行。这在我们要找出数据集中有哪些独立的类别，或者在进行数据去重处理时非常有用。

#### 基本语法与参数详解

在开始写代码之前，让我们先全面了解一下这个函数的语法结构，以便在遇到不同场景时能灵活运用：

unique(x, incomparables = FALSE, fromLast = FALSE, nmax = NA, …, MARGIN)

我们可以看到，除了必须指定的输入数据 x 之外，该函数还包含几个非常实用的控制参数。让我们逐一剖析它们的含义：

x（必需）：这是我们需要处理的对象，可以是一个向量、数据框、数组，甚至是矩阵。如果是 NULL，函数会直接返回 NULL。
INLINECODE5b34a231（可选）：这是一个高级参数。它接受一个向量，包含那些我们不希望进行比较的值。如果设置为 INLINECODE7d789d4b（这是默认值），意味着所有值都会被拿去比较是否有重复。在某些特定的数据类型处理中，你可以利用这个参数排除特定的干扰值。
fromLast（可选）：这是一个逻辑参数，决定了我们如何处理重复项的“保留权”。

* 默认是 FALSE，这意味着对于重复的元素，我们只保留第一次出现的那一个（即保留最左边的）。

* 如果设置为 TRUE，逻辑就会反转，我们会保留最后一次出现的那一个（即保留最右边的）。这对于处理时间序列数据或想要获取最新状态的场景非常有用。

nmax（可选）：这个参数主要涉及哈希表优化，它指定了我们预计的唯一项的最大数量。在处理海量数据时，合理设置这个参数可以稍微提升内存分配的效率，但通常情况下，R 会自动处理。
INLINECODE1da3570e（可选）：这个参数仅用于数组或矩阵。它告诉函数应该沿着哪个维度进行操作。例如，INLINECODEb21a3c8b 表示按行操作，MARGIN = 2 表示按列操作。

#### 返回值

函数会返回一个与输入对象 x 类型相同的新对象（向量、数据框或数组），但其中不包含任何重复的元素或行。需要注意的是，原始数据不会被修改，因为 R 语言的这种操作通常是不修改原数据的（in-place modification 除外），我们需要将结果赋值给一个新变量。

—

实战演练：从基础到进阶

光说不练假把式。让我们通过一系列由浅入深的示例，来看看 unique() 在实际代码中是如何工作的。

#### 示例 1：基础向量去重

最简单的场景莫过于处理一个数值向量。假设我们有一组包含重复数字的数据，我们想知道其中到底包含了哪些不重复的数字。

# 创建一个包含重复值的输入向量
# 我们可以看到数字 2, 3, 5, 6 都出现了多次
A <- c(1, 2, 3, 3, 2, 5, 6, 7, 6, 5)

print("原始向量 A:")
print(A)

# 使用 unique() 函数去除重复值
# R 会保留每个数字第一次出现的位置
unique_A <- unique(A)

print("去重后的结果:")
print(unique_A)

输出结果：

[1] "原始向量 A:"
 [1] 1 2 3 3 2 5 6 7 6 5
[1] "去重后的结果:"
[1] 1 2 3 5 6 7

我们可以看到，结果不仅去掉了重复项，而且按照元素在原始向量中首次出现的顺序进行了排序。这是一个非常好的特性，因为它保留了数据的原始模式。

#### 示例 2：理解 fromLast 参数

刚才我们看到了默认的去重行为，但如果我们想保留最后一次出现的值呢？这在某些业务逻辑（例如获取用户的最后登录状态）中非常关键。

# 创建一个包含字符的向量
status_vec <- c("Open", "Closed", "Open", "Pending", "Open")

print("默认去重（保留第一个 Open）:")
# 默认情况下，fromLast = FALSE
print(unique(status_vec))

print("反转逻辑去重（保留最后一个 Open）:")
# 设置 fromLast = TRUE
print(unique(status_vec, fromLast = TRUE))

输出结果：

[1] "默认去重（保留第一个 Open）:"
[1] "Open"    "Closed" "Pending"
[1] "反转逻辑去重（保留最后一个 Open）:"
[1] "Closed"  "Pending" "Open"

注意到了吗？第二个结果中，"Open" 出现在了最后，因为它保留了向量末尾的那个 "Open"，而不是开头的那个。

#### 示例 3：矩阵中的行去重

当我们处理矩阵时，通常是以“行”作为一个整体来判断重复的。如果两行的所有对应元素都相同，它们就被视为重复。

# 创建一个 2行 5列 的矩阵
# 这里使用了 rep 函数来生成重复的行数据
mat_data <- matrix(rep(1:5, length.out = 10),
                   nrow = 2, ncol = 5, byrow = TRUE)

print("原始矩阵:")
print(mat_data)

# 检查维度
cat("原始矩阵行数:", nrow(mat_data), "
")

# 使用 unique() 去除重复的行
unique_mat <- unique(mat_data)

print("去重后的矩阵:")
print(unique_mat)
cat("去重后矩阵行数:", nrow(unique_mat), "
")

输出结果：

[1] "原始矩阵:"
     [,1] [,2] [,3] [,4] [,5]
[1,]    1    2    3    4    5
[2,]    1    2    3    4    5
原始矩阵行数: 2 
[1] "去重后的矩阵:
     [,1] [,2] [,3] [,4] [,5]
[1,]    1    2    3    4    5
去重后矩阵行数: 1 
``

在这个例子中，两行完全相同，所以 `unique()` 只返回了一行。这对于清洗包含完全相同实验记录的矩阵非常有帮助。

#### 示例 4：数据框去重（实战核心场景）

在实际的数据分析项目中，我们最常打交道的是数据框。让我们创建一个模拟的学生班级数据，看看如何清洗重复的条目。

1 创建一个数据框，模拟班级学生信息
2 注意：Aman 和 Sita 的信息被故意输入了两次
3 使用 unique() 函数
4 它会检查每一行的组合，如果完全一致则去除
5 创建一个更复杂的数据框
6 提取单列唯一值（结果是向量）
7 也可以传递列名的字符串向量（结果是数据框）
8 尝试提取两列的组合唯一值
9 初始化一个包含大量重复数字的向量
10 先去重，再计算长度
11 一行代码搞定
12 count_unique <- length(unique(df))
13 打印出这些唯一的元素
14 结果会包含 "apple" 和 "Apple" 两个
15 输出: 1 NA 2 3
16 使用 dplyr 的示例（更现代的语法）
17 distinctdata <- Classdata %>% distinct()

创建一个数据框，模拟班级学生信息

注意：Aman 和 Sita 的信息被故意输入了两次

Class_data <- data.frame(

Student = c(‘Aman‘, ‘Sita‘, ‘Aman‘, ‘Rohan‘, ‘Sita‘),

Age = c(22, 23, 22, 22, 23),

Gender = c(‘Male‘, ‘Female‘, ‘Male‘, ‘Male‘, ‘Female‘)

)

print("— 原始数据（包含重复行） —")

print(Class_data)

使用 unique() 函数

它会检查每一行的组合，如果完全一致则去除

CleanedClassdata <- unique(Class_data)

print("— 清洗后的唯一数据 —")

print(CleanedClassdata)


**输出结果：**

— 原始数据（包含重复行） —

Student Age Gender

1 Aman 22 Male

2 Sita 23 Female

3 Aman 22 Male

4 Rohan 22 Male

5 Sita 23 Female

— 清洗后的唯一数据 —

Student Age Gender

1 Aman 22 Male

2 Sita 23 Female

4 Rohan 22 Male


这是数据清洗中最经典的应用。我们发现原始数据中第3行和第1行完全相同，第5行和第2行完全相同。`unique()` 自动帮我们剔除了多余的行，只保留了唯一的观测记录。

#### 示例 5：提取特定列的唯一值

有时候，我们并不关心整行是否重复，而是想看看某一列（比如“ID”或“类别”）到底有哪些不同的取值。

创建一个更复杂的数据框

data <- data.frame(

x1 = c(9, 5, 6, 8, 9, 8),

x2 = c(2, 4, 2, 7, 1, 4),

x3 = c(3, 6, 7, 0, 3, 7),

x4 = c("Hello", "value", "value", "Test", NA, "R_Stuff")

)

print("查看 x1 列的所有唯一值:")

提取单列唯一值（结果是向量）

print(unique(data$x1))

也可以传递列名的字符串向量（结果是数据框）

print("查看 x2 列的唯一值（保留数据框结构）:")

print(unique(data[c("x2")]))

尝试提取两列的组合唯一值

print("查看 x1 和 x2 组合的唯一行:")

print(unique(data[c("x1", "x2")]))


**输出结果：**

[1] "查看 x1 列的所有唯一值:"

[1] 9 5 6 8

[1] "查看 x2 列的唯一值（保留数据框结构）:

1 2

2 4

4 7

5 1

[1] "查看 x1 和 x2 组合的唯一行:

x1 x2

1 9 2

2 5 4

3 6 2

4 8 7

5 9 1

6 8 4


在这里，我们可以灵活地切换查看维度。如果我们只关心有哪些 ID，直接用 `unique(data$col_name)` 即可。

#### 示例 6：统计唯一值的个数（进阶技巧）

知道有哪些唯一值还不够，我们经常需要知道到底“有多少个”唯一值。我们可以将 `unique()` 和 `length()` 函数组合使用来实现这一点。

初始化一个包含大量重复数字的向量

df <- c(1, 2, 3, 4, 5, 6, 7, 4, 5, 6, 1, 1)

先去重，再计算长度

df_uniq <- unique(df)

countunique <- length(dfuniq)

一行代码搞定

count_unique <- length(unique(df))

cat("原始向量长度:", length(df), "

cat("唯一元素的个数:", count_unique, "

打印出这些唯一的元素

print("具体的唯一元素是:")

print(df_uniq)


**输出结果：**

原始向量长度: 12

唯一元素的个数: 7

[1] "具体的唯一元素是:"

[1] 1 2 3 4 5 6 7


这个技巧在探索性数据分析（EDA）阶段非常有用，比如你想知道一个数据集中到底有多少个不同的用户 ID（`n_unique_users`）。

---

### 最佳实践与常见错误

在日常开发中，使用 `unique()` 时有几个细节值得我们特别注意，以避免掉进坑里。

#### 1. 注意大小写敏感性
R 语言是区分大小写的。`unique()` 函数在处理字符串时，会把 "Apple" 和 "apple" 视为两个不同的值。

fruits <- c("apple", "Apple", "banana", "Apple")

print(unique(fruits))

结果会包含 "apple" 和 "Apple" 两个


如果你希望进行不区分大小写的去重，建议在调用 `unique()` 之前，先用 `tolower()` 或 `toupper()` 将数据标准化。

#### 2. 处理缺失值（NA）
`unique()` 函数会将所有的 `NA`（缺失值）视为相同的值，并只保留一个 `NA`。这通常是符合预期的行为，但你需要知道结果中会包含一个 `NA`。

vals <- c(1, NA, 2, NA, 3)

print(unique(vals))

输出: 1 NA 2 3


#### 3. 性能优化建议
虽然 `unique()` 对于大多数中小型数据集来说速度非常快，但当你处理**数百万行**甚至更大的数据时，可能会遇到性能瓶颈。

*   **对于因子：** 如果你的数据是 `factor` 类型，`unique()` 通常很快，因为 R 内部使用了整数表示。
*   **对于大数据：** 如果 `unique()` 运行缓慢，可以考虑使用 `dplyr` 包中的 `distinct()` 函数，或者 `data.table` 包中的 `unique()` 方法，它们在处理大数据框时往往经过了高度优化。

使用 dplyr 的示例（更现代的语法）

library(dplyr)

distinctdata <- Classdata %>% distinct()

“INLINECODEe3370f8funique()INLINECODE1f0a8ceafromLastINLINECODEb1ae150eunique()INLINECODE8792fdfblength()INLINECODE82ae9e2cfromLastINLINECODE81f2db27duplicated() 函数来定位重复项的位置，以及如何结合 dplyr` 包进行更复杂的数据清洗操作。希望你在自己的代码项目中尝试使用这些技巧，让数据更加干净整洁！

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客

深入解析 R 语言中的 unique() 函数：去重与数据清洗的利器

`unique()` 函数的核心机制

实战演练：从基础到进阶

创建一个数据框，模拟班级学生信息

注意：Aman 和 Sita 的信息被故意输入了两次

使用 unique() 函数

它会检查每一行的组合，如果完全一致则去除

创建一个更复杂的数据框

提取单列唯一值（结果是向量）

也可以传递列名的字符串向量（结果是数据框）

尝试提取两列的组合唯一值

初始化一个包含大量重复数字的向量

先去重，再计算长度

一行代码搞定

count_unique <- length(unique(df))

打印出这些唯一的元素

结果会包含 "apple" 和 "Apple" 两个

输出: 1 NA 2 3

使用 dplyr 的示例（更现代的语法）

distinctdata <- Classdata %>% distinct()

相关文章美国1G带宽/1T流量高速vps $17.99/年

深入解析 R 语言中的 unique() 函数：去重与数据清洗的利器

unique() 函数的核心机制

实战演练：从基础到进阶

创建一个数据框，模拟班级学生信息

注意：Aman 和 Sita 的信息被故意输入了两次

使用 unique() 函数

它会检查每一行的组合，如果完全一致则去除

创建一个更复杂的数据框

提取单列唯一值（结果是向量）

也可以传递列名的字符串向量（结果是数据框）

尝试提取两列的组合唯一值

初始化一个包含大量重复数字的向量

先去重，再计算长度

一行代码搞定

count_unique <- length(unique(df))

打印出这些唯一的元素

结果会包含 "apple" 和 "Apple" 两个

输出: 1 NA 2 3

使用 dplyr 的示例（更现代的语法）

distinctdata <- Classdata %>% distinct()

相关文章美国1G带宽/1T流量高速vps $17.99/年

`unique()` 函数的核心机制