深入解析 C# HashSet：高性能去重与集合操作指南

2026-02-09 12:10:39 0条评论 75次阅读 0人点赞

在日常的 C# 开发工作中，我们经常会遇到需要处理一组数据，并且确保这组数据中不包含任何重复元素的情况。也许你会第一时间想到使用 INLINECODEf355b3df 并在添加时手动检查 INLINECODE26770ba0，或者使用 LINQ 的 INLINECODE2cceb709 方法。但这些方案往往在性能上不尽如人意，尤其是在数据量非常大的情况下。这时候，INLINECODEd25f9bdc 就成为了我们的最佳救星。

在这篇文章中，我们将深入探讨 C# 中的 HashSet 类。它不仅能够自动为我们处理去重逻辑，还提供了极高的数学集合运算性能。我们将一起学习它的工作原理、核心特性，并通过丰富的代码示例来看看如何在实战中高效地使用它。

1 什么是 HashSet？
2 核心特性
3 代码实战：基础使用
4 深入构造函数
5 属性详解
6 核心方法与实战应用
7 常见错误与性能优化建议
8 总结

什么是 HashSet？

简单来说，INLINECODE8d0c62b2 是一个不包含重复元素且没有特定顺序的集合。它位于 INLINECODEacc99d70 命名空间下。

为什么选择 HashSet 而不是 List？

这是一个非常经典的问题。INLINECODE8876ee3c 是基于索引的有序列表，而 INLINECODE755ea93d 是基于哈希值的数学集合。

让我们看看它们在“检查元素是否存在”这一操作上的性能差异（这是去重的核心操作）：

List.Contains(): 这是一个 O(n) 操作。这意味着如果你有 100 万个元素，在最坏的情况下，它需要比较 100 万次才能知道元素是否存在。随着数据量的增加，时间线性增长。
HashSet.Contains(): 这是一个接近 O(1) 的操作。无论集合里有 10 个元素还是 100 万个元素，它通过哈希算法查找元素的时间几乎都是瞬间的。

因此，当我们需要高频地进行“存在性检查”或确保“唯一性”时，INLINECODE14c51dec 在性能上完胜 INLINECODE40bd9fb8。

核心特性

在使用之前，我们需要了解 HashSet 的几个关键性格特征，这样才能避免在实际开发中踩坑：

无序性：正如我们在前面提到的，集合中的元素并没有特定的顺序。当你遍历一个 INLINECODE48e637c3 时，元素的输出顺序并不一定与你添加的顺序一致。这与 INLINECODE232fc87c 或数组截然不同。如果你需要数据按插入顺序排列，请考虑使用 INLINECODEd39ece99 或 INLINECODE080ae857。

唯一性：这是它的灵魂。集合中的每个元素都是唯一的。如果你尝试添加一个已经存在的元素，INLINECODE9cb5e11f 方法会直接返回 INLINECODEb13b54da，并且集合不会发生任何变化。

动态容量：HashSet 会自动处理容量的增长。当元素数量超过其当前的容量阈值时，它会自动增加内部存储空间，这通常是 O(1) 的操作，尽管偶尔会因为扩容而产生短暂的性能波动。

数学集合运算：它内置了强大的数学运算能力，比如并集（Union）、交集（Intersect）和差集（Except）。这使得处理复杂的数据关系变得异常简单。

代码实战：基础使用

让我们通过一个最直观的例子来看看如何创建和操作 HashSet。

示例 1：防止重复数据

假设我们在处理一个用户 ID 列表，由于某些系统错误可能会产生重复的 ID。我们想要清洗数据，只保留唯一的 ID。

// C# 程序：演示 HashSet 的基础去重功能
using System;
using System.Collections.Generic;

class Program 
{
    public static void Main(string[] args)
    {
        // 1. 实例化一个 HashSet 对象
        // 这里我们存储整数类型的用户 ID
        HashSet uniqueUserIds = new HashSet();

        // 2. 添加元素
        Console.WriteLine("正在添加元素...");
        bool added1 = uniqueUserIds.Add(101); // 返回 true
        Console.WriteLine($"添加 101: {added1}");

        bool added2 = uniqueUserIds.Add(102); // 返回 true
        Console.WriteLine($"添加 102: {added2}");
      
        // 3. 尝试添加重复元素
        // 这个操作将被 HashSet 无视，因为它已经包含 101 了
        bool addedDup = uniqueUserIds.Add(101); // 返回 false
        Console.WriteLine($"再次添加 101: {addedDup}");

        // 4. 打印 HashSet 的大小和元素
        // 注意：输出顺序可能与添加顺序不同
        Console.WriteLine($"
当前 HashSet 大小: {uniqueUserIds.Count}");
        Console.Write("集合中的元素: ");
        Console.WriteLine(string.Join(", ", uniqueUserIds));
    }
}

可能的输出：

正在添加元素...
添加 101: True
添加 102: True
再次添加 101: False

当前 HashSet 大小: 2
集合中的元素: 101, 102

代码解析： 在这个例子中，我们利用 INLINECODE95e30430 方法的返回值来判断元素是否被成功插入。这是处理数据去重时非常有用的技巧。INLINECODE3d2fd22a 属性则直接告诉我们当前有多少个唯一元素。

示例 2：初始化与数据填充

在实际开发中，我们经常需要从一个现有的列表或数组来创建 HashSet，以去除其中的重复项。

// C# 程序：从现有集合初始化 HashSet
using System;
using System.Collections.Generic;
using System.Linq; // 仅用于演示对比，HashSet 本身不需要 Linq

class Program 
{
    public static void Main()
    {
        // 假设我们有一个包含重复数字的列表
        List rawNumbers = new List { 5, 2, 5, 9, 1, 2, 5 };

        // 方式 A: 直接将列表传递给 HashSet 构造函数
        // 这将自动去除所有重复项
        HashSet uniqueNumbers = new HashSet(rawNumbers);

        Console.WriteLine("原始列表可能有重复，使用 HashSet 清洗后：");

        // 遍历 HashSet
        // 注意：这里的输出顺序是不确定的，这是 HashSet 的特性
        foreach(int num in uniqueNumbers) 
        { 
          Console.Write(num + " "); 
        }
        Console.WriteLine();
        
        // 验证数量
        Console.WriteLine($"原始数量: {rawNumbers.Count}，去重后数量: {uniqueNumbers.Count}");
    }
}

可能的输出：

原始列表可能有重复，使用 HashSet 清洗后：
5 2 9 1 
原始数量: 7，去重后数量: 4

实用见解： 这种模式在数据清洗阶段非常常见。例如，从日志文件中读取了一堆错误代码，你想知道到底发生了哪几种错误，直接把日志列表扔进 HashSet 构造函数即可，无需写复杂的循环去重逻辑。

深入构造函数

当我们使用 new HashSet() 时，我们实际上是在调用它的构造函数。根据不同的场景，我们可以选择不同的初始化方式。

HashSet(): 默认构造函数。创建一个空的集合，使用默认的相等比较器。这在 90% 的情况下都是够用的。
HashSet(IEnumerable collection): 如上面的示例所示，这是将现有数据去重并转换为集合的最快方式。
INLINECODE0b1465f6: 这是一个高级用法。默认情况下，INLINECODE2fd68048 判断两个对象是否相等取决于对象的 INLINECODE7f6b6002 和 INLINECODEe27a5b1d 方法。但如果你想在自定义类上定义特殊的“相等”规则（例如，只比较 Person 对象的 ID，而忽略姓名），你可以传入一个自定义的比较器。

属性详解

HashSet 类虽然方法丰富，但暴露的公开属性只有两个，非常精简。

属性

描述

—

Comparer

获取用于确定集合中的值是否相等的 IEqualityComparer 对象。如果你没有传入自定义比较器，这里将返回默认的比较器。这通常用于调试或反射场景。

Count

获取集合中包含的元素数量。这是一个 O(1) 操作，非常快。### 示例 3：监控集合大小

让我们看一个更实际的场景：统计文件中出现的不重复单词的数量。

// C# 程序：演示 Count 属性的实际应用
using System;
using System.Collections.Generic;

class Program 
{
    public static void Main()
    {
        // 模拟一段文本数据
        string text = "C# is great C# is powerful HashSet is fast";
        string[] words = text.Split(‘ ‘);

        // 创建一个字符串类型的 HashSet
        HashSet uniqueWords = new HashSet();

        // 遍历并添加
        foreach (string word in words)
        {
            // HashSet 会自动处理大小写敏感的去重
            // "C#" 和 "c#" 会被视为不同的元素（默认情况下）
            uniqueWords.Add(word);
        }

        // 使用 Count 获取唯一单词数
        Console.WriteLine("总单词数: " + words.Length);
        Console.WriteLine("唯一单词数: " + uniqueWords.Count);
        Console.WriteLine("不重复的单词列表: " + string.Join(", ", uniqueWords));
    }
}

输出：

总单词数: 8
唯一单词数: 6
不重复的单词列表: C#, is, great, powerful, HashSet, fast

核心方法与实战应用

HashSet 提供了丰富的方法来操作数据。让我们将最常用的方法分为几类来讲解。

1. 基础操作

INLINECODE41c88e72: 向集合中添加元素。如果元素已存在，则返回 INLINECODE4030fa7f。
Clear(): 移除所有元素。
Contains(T item): 判断集合中是否包含特定元素。
Remove(T item): 移除指定元素。
INLINECODEf75ffbf2: 这是一个非常强大的方法。它允许你根据条件批量删除元素。这比使用循环遍历并 INLINECODEfdc299f3 要高效得多，也简洁得多。

示例 4：批量移除元素（RemoveWhere）

假设我们有一个包含数字 1 到 10 的集合，我们想移除所有大于 5 的数字。

using System;
using System.Collections.Generic;

class Program 
{
    public static void Main()
    {
        HashSet numbers = new HashSet();
        
        // 填充 1 到 10
        for(int i=1; i n > 5);

        Console.WriteLine("移除大于5的数字后: " + string.Join(", ", numbers));
    }
}

2. 集合运算（重头戏）

这是 INLINECODE0cd7c625 真正发光发热的地方。如果我们自己用 INLINECODE75680b79 去实现这些逻辑，代码量会非常大且容易出错。

INLINECODE7d751915: 并集。修改当前集合，使其包含当前集合和 INLINECODE18ac60a6 集合中的所有元素（去重）。
INLINECODEfddd7e0b: 交集。修改当前集合，使其只包含同时存在于当前集合和 INLINECODEc99ad56a 集合中的元素。
INLINECODE59bff841: 差集。修改当前集合，移除所有也存在于 INLINECODE6cffe1fe 中的元素。

示例 5：模拟权限检查（交集与差集）

想象一个场景：我们有一组“系统允许的所有权限”，和一个“用户当前拥有的权限”。我们想知道：

用户还有哪些权限是系统允许但他还没获得的？（差异）
用户现在的权限是否依然有效？（交集验证）

using System;
using System.Collections.Generic;

class Program 
{
    public static void Main()
    {
        // 系统定义的所有可用权限
        HashSet systemPermissions = new HashSet 
        { 
            "Read", "Write", "Delete", "Execute", "Admin" 
        };

        // 某个用户当前拥有的权限
        HashSet userPermissions = new HashSet 
        { 
            "Read", "Execute", "Guest_Access" // 注意：这里有个权限甚至不在系统列表中
        };

        Console.WriteLine("--- 场景：权限审计 ---");

        // 1. 获取用户“有效”的权限（用户权限与系统权限的交集）
        // 这会自动剔除掉那个 "Guest_Access"，因为它不在 systemPermissions 里
        HashSet validUserPermissions = new HashSet(userPermissions);
        validUserPermissions.IntersectWith(systemPermissions);

        Console.WriteLine("用户的有效权限: " + string.Join(", ", validUserPermissions));

        // 2. 计算用户还缺少哪些权限（系统权限 减去 用户权限）
        HashSet missingPermissions = new HashSet(systemPermissions);
        missingPermissions.ExceptWith(userPermissions);

        Console.WriteLine("用户尚未获得的权限: " + string.Join(", ", missingPermissions));
    }
}

输出：

--- 场景：权限审计 ---
用户的有效权限: Read, Execute
用户尚未获得的权限: Write, Delete, Admin

实战意义： 这种逻辑在 RBAC（基于角色的访问控制）系统中非常常见。使用 HashSet 的集合运算，几行代码就搞定了原本复杂的嵌套循环逻辑。

常见错误与性能优化建议

在使用 HashSet 时，有几个点需要特别注意，否则可能会引入难以发现的 Bug 或性能瓶颈。

1. 元素的顺序

再次强调，千万不要依赖 HashSet 的遍历顺序。虽然有时候你会发现在同一个运行环境下，遍历顺序似乎保持不变，但这取决于底层的哈希桶实现，任何框架版本的更新或者对象哈希值的改变都可能导致顺序改变。

错误做法：将数据存入 INLINECODE20d97cf7，然后期望 INLINECODE4e6d4c97 总是按添加顺序输出。
正确做法：如果你需要有序输出，请使用 INLINECODE900c51d8（自动排序）或者 INLINECODEaac182ee（保持插入顺序）。

2. 自定义类型的陷阱

如果你将自定义的类（比如 INLINECODE6b2552ad）放入 INLINECODE3e30aecd，你必须确保该类正确实现了 INLINECODE3ccbb9be 和 INLINECODEdd1e3ace 方法。

如果你的类没有重写这两个方法，INLINECODE746c0802 将使用对象的引用地址来判断是否相等。这意味着，即使两个 INLINECODEb0b6320b 对象的 INLINECODEb43c842b 和 INLINECODEe3918753 完全一样，它们在内存中是不同的实例，HashSet 也会把它们当作两个不同的元素。这通常不是我们想要的结果。

解决方案：要么在你的类中重写 INLINECODEd711b574 和 INLINECODEa85c0512，要么在构造 INLINECODEefe59cb5 时传入一个自定义的 INLINECODE44a87fb3。

3. 性能考量

内存开销：相比于 INLINECODEaa10a130，INLINECODEc5ff3e5e 通常需要消耗更多的内存，因为它不仅要存储元素，还要维护哈希表结构。如果内存非常紧张且数据量不大，List 可能更节省资源。
扩容成本：虽然 INLINECODE2d9d8a07 的 INLINECODE28f29a11 平均是 O(1)，但在触发内部扩容时，需要重新计算所有元素的哈希值并移动位置，这会有瞬时的性能抖动。如果你能预估数据量，可以使用 HashSet(int capacity) 构造函数预先指定容量，避免扩容带来的开销。

总结

在今天的文章中，我们全面探讨了 C# 中 INLINECODE4f8f48e8 类的强大功能。从它基于哈希算法的高效去重能力，到它对数学集合运算的完美支持，INLINECODE517d88ba 都是处理无序唯一数据的利器。

我们回顾了以下几个关键点：

唯一性：它自动维护元素的唯一性，不再需要手写 if (!list.Contains(x)) 这样的检查。
高性能：INLINECODEe4773eca、INLINECODE04c43c59 和 INLINECODE0c21daaa 操作都是接近 O(1) 的时间复杂度，远优于 INLINECODEee3554d9。
集合运算：INLINECODE2e14d669、INLINECODE4074b5f2 和 ExceptWith 为数据处理提供了极其简洁的语法。

给读者的建议：

下次当你需要从 INLINECODEc29735b8 中去除重复项，或者需要快速检查某个 ID 是否存在于缓存中时，请停下来思考一下：这里是否适合使用 INLINECODE4f974505？ 相信我，一旦你习惯了它的高效，你就再也离不开了。

希望这篇文章能帮助你更好地理解和运用 C# 中的 INLINECODEada23035。如果你有任何疑问，或者想分享你在项目中使用 INLINECODE24b32866 的独特经验，欢迎在评论区留言！

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客