深入解析：使用 PyTorch 实现高效的无监督聚类算法

2026-02-14 00:12:20 0条评论 3次阅读 0人点赞

在机器学习的广阔领域中，无监督学习一直是一个令人着迷的分支。不同于有监督学习需要我们手把手地教模型“什么是对，什么是错”，无监督学习更像是让模型学会“自学成才”。作为无监督学习中最基础也最重要的应用场景，无监督聚类旨在根据数据内部的相似性或某种潜在结构，将一堆杂乱无章的数据划分为不同的组或群集。想象一下，给你一大堆没有标签的照片，让你自动把它们按风景、人像或美食分类——这就是聚类要解决的问题。

虽然像 Scikit-learn 这样的传统库提供了丰富的聚类算法，但在当今这个深度学习盛行的时代，为什么我们还要学习使用 PyTorch 来实现聚类呢？答案很简单：性能与扩展性。PyTorch 不仅提供了 GPU 加速的能力，能让我们轻松处理数百万甚至上亿级别的数据集，还能无缝地将聚类算法整合到深度神经网络中。在这篇文章中，我们将抛开传统的调用库函数的方式，带你深入探索如何使用 PyTorch 从零开始实现 K-means、层次聚类等核心算法，并分享许多实战中的独家技巧。

1 什么是无监督聚类？
2 深入实战：使用 PyTorch 实现 K-means 聚类
3 进阶探索：层次聚类与 DBSCAN
4 评估聚类性能：如何知道效果好不好？
5 总结与实战建议

什么是无监督聚类？

在深入代码之前，我们需要先达成一个共识：什么是无监督聚类？简单来说，它是一种不需要标记的实例（即没有 Ground Truth 或标签）就能发现数据内部隐藏模式或分组的方法。它就像是在没有任何翻译的情况下，去理解一本外语书中的结构。

在这个过程中，我们通常根据某种距离度量（如欧几里得距离）或相似性度量（如余弦相似度）来衡量数据点之间的“亲疏关系”，进而将数据点分割成离散的“簇”。簇内部的数据点应该尽可能相似，而不同簇的数据点应该尽可能不同。

常见的聚类算法类型

市面上有很多种无监督聚类算法，每种都有其独特的性格和适用场景。作为开发者，你必须了解它们的核心区别，才能在项目中游刃有余：

K-Means 聚类（划分法）：这是最经典、最常用的算法。它的核心思想是将数据划分为 K 个簇，每个簇由其质心（即数据点的均值）代表。它速度快，但对初始值敏感，且通常假设簇是球形的。
层次聚类（层次法）：这种方法不需要预先指定簇的数量。它通过构建一个树状结构来展示数据的层次，就像家谱一样。它既可以是自底向上（凝聚式），也可以是自顶向下（分裂式）。适合用于需要理解数据层级结构的场景。
DBSCAN（基于密度的方法）：全称是“基于密度的带有噪声的应用空间聚类”。它非常强大，因为它可以发现任意形状的簇（比如环形或新月形），并且能自动识别并剔除噪声数据（离群点）。它是基于“一个簇内的点必须紧密相连”这一假设的。

深入实战：使用 PyTorch 实现 K-means 聚类

K-means 聚类是机器学习界的“Hello World”，但在 PyTorch 中实现它，能让我们对张量运算有更深的理解。传统的 Python 实现往往依赖循环，速度较慢，而利用 PyTorch 的矩阵运算能力，我们可以实现高效的向量化代码。

K-means 的核心原理

让我们快速回顾一下 K-means 的工作流程，因为理解这其中的每一步对于编写代码至关重要：

初始化：从数据集中随机选择 K 个点作为初始质心。
分配步骤（E-step）：计算每个数据点到所有 K 个质心的距离，将每个点分配给距离最近的那个质心。
更新步骤（M-step）：重新计算每个簇的质心，即取该簇内所有点的均值。
迭代：重复步骤 2 和 3，直到质心不再变化（收敛）或达到最大迭代次数。

环境准备与数据生成

首先，我们需要准备数据。为了让演示直观，我们将生成一些合成的聚类数据。你可以想象成我们在模拟一些真实世界的分布，比如不同客户群体的地理位置分布。

# 导入必要的库
import torch
import torch.nn.functional as F
from sklearn.datasets import make_blobs
import matplotlib.pyplot as plt
import numpy as np

# 为了让结果可复现，我们设置随机种子
torch.manual_seed(42)
np.random.seed(42)

# 生成合成数据：模拟 4 个簇，每个簇有一定的标准差
# 这是一个常用的技巧，用于在测试算法时获得已知结构的数据
data, _ = make_blobs(n_samples=500, centers=4, cluster_std=0.60, random_state=0)

# 将数据转换为 PyTorch 张量
tensor_data = torch.from_numpy(data).float()
print(f"数据集的形状: {tensor_data.shape}") # 500 个样本，每个样本 2 个特征

编写 K-means 算法核心

这里是激动人心的时刻。我们将不依赖现成的聚类库，而是用 PyTorch 的原语来编写逻辑。我们将使用 torch.cdist 这个强大的函数来计算距离矩阵，这比手写循环要快几十倍。

def k_means_pytorch(X, n_clusters=4, n_iterations=100, device=‘cpu‘):
    """
    实现高效的 K-means 聚类算法。
    
    参数:
        X (torch.Tensor): 输入数据，形状为 [n_samples, n_features]
        n_clusters (int): 目标簇的数量
        n_iterations (int): 最大迭代次数
        device (str): 计算设备 (‘cpu‘ 或 ‘cuda‘)
        
    返回:
        torch.Tensor: 每个数据点的簇标签
        torch.Tensor: 最终的质心
    """
    # 将数据移动到指定设备（CPU 或 GPU）
    X = X.to(device)
    
    # 1. 随机初始化质心
    # 我们从数据中随机选择 n_clusters 个点作为初始质心
    indices = torch.randperm(X.size(0))[:n_clusters]
    centroids = X[indices].clone()
    
    print("开始训练...")
    for i in range(n_iterations):
        # 2. 计算距离矩阵 [n_samples, n_clusters]
        # torch.cdist 计算两个张量之间的欧几里得距离
        distances = torch.cdist(X, centroids)
        
        # 3. 将每个点分配给最近的质心
        # dim=1 表示对每一行（每个样本）求最小值
        # labels 包含了每个样本所属的簇索引
        labels = torch.argmin(distances, dim=1)
        
        # 4. 更新质心
        new_centroids = torch.zeros_like(centroids)
        for k in range(n_clusters):
            # 找到所有属于第 k 个簇的样本
            mask = labels == k
            # 如果簇非空，计算均值作为新质心
            if mask.any():
                new_centroids[k] = X[mask].mean(dim=0)
            else:
                # 处理空簇的情况：重新初始化一个随机点
                new_centroids[k] = X[torch.randint(0, X.size(0), (1,))]
                
        # 检查收敛性（可选，但为了演示我们跑满迭代次数）
        # torch.allclose 用于比较两个张量是否在误差范围内相等
        if torch.allclose(centroids, new_centroids):
            print(f"在第 {i} 次迭代时提前收敛。")
            break
            
        centroids = new_centroids

    return labels, centroids

# 让我们在 CPU 上运行这个函数
labels, centroids = k_means_pytorch(tensor_data, n_clusters=4, n_iterations=100)

print("训练完成！")
print(f"质心位置:
{centroids}")

可视化结果

代码跑完了，但看不见摸不着总让人不放心。让我们把结果画出来，直观地感受一下算法的效果。这不仅能验证我们的代码是否正确，还能帮助我们直观地理解数据是如何被划分的。

# 绘制聚类结果
plt.figure(figsize=(10, 6))

# 绘制数据点，根据标签上色
plt.scatter(data[:, 0], data[:, 1], c=labels.numpy(), cmap=‘viridis‘, s=50, alpha=0.6, label=‘数据点‘)

# 绘制质心，用红色的大号 ‘X‘ 标记
plt.scatter(centroids[:, 0], centroids[:, 1], marker=‘X‘, s=200, color=‘red‘, label=‘质心‘)

plt.title(‘PyTorch K-means 聚类结果‘)
plt.xlabel(‘特征 1‘)
plt.ylabel(‘特征 2‘)
plt.legend()
plt.grid(True)
plt.show()

实战技巧：K-means++ 初始化与最佳实践

在实际生产环境中，上面的基础 K-means 可能还不够稳健。作为经验丰富的开发者，我想分享几个实用的优化建议：

K-means++ 初始化：上面的代码是完全随机初始化的，这很容易导致陷入局部最优解。一种标准的优化方法是使用 K-means++ 初始化，即第一个质心随机选择，后续的质心选择离已选质心较远的点。这能显著提高收敛速度和最终质量。
GPU 加速：PyTorch 的强大之处在于 GPU。如果你处理的是图像聚类或大规模文本向量聚类，只需将 INLINECODE1a59548b 和 INLINECODE0be0b621 调用 .to(‘cuda‘)，计算过程就会在显卡上飞速运行。
空簇处理：在代码中我添加了对空簇的检查。如果某个簇在更新过程中失去了所有点（这在质心位置不好时会发生），你需要重新初始化它，否则会导致后续计算错误。

进阶探索：层次聚类与 DBSCAN

虽然 K-means 是主力，但有时候我们需要更复杂的结构。

层次聚类

[层次聚类]与其说是一个算法，不如说是一种思想。它不像 K-means 那样给出一个扁平的划分结果，而是构建一个树状结构。在 PyTorch 中实现完全的层次聚类（特别是需要构建距离矩阵时）可能会消耗大量的内存（内存复杂度为 O(N^2)），因此对于超大数据集需要谨慎。

通常，我们使用 INLINECODEbeb775ba 配合 PyTorch 张量来实现，因为 INLINECODEb2fec06c 的实现经过高度优化。不过，如果你必须在 PyTorch 中实现（例如为了在 GPU 上加速距离计算），核心逻辑如下：

计算所有点对之间的距离矩阵。
将每个点视为一个簇。
循环：找到距离最近的两个簇，合并它们，更新距离矩阵。
直到只剩下一个簇。

# 简单的层次聚类逻辑演示（非生产级代码，用于说明原理）
# 这里我们使用简单的最小距离作为合并标准

def simple_hierarchical_clustering(X, n_clusters=2):
    # 这里为了演示简化流程，实际应用建议使用 Scipy 的 linkage 函数
    # 获取样本数量
    n_samples = X.size(0)
    
    # 初始化：每个点自己是一个簇
    # clusters 存储每个簇的索引列表
    clusters = [[i] for i in range(n_samples)]
    
    print("注意：纯 PyTorch 实现层次聚类在计算合并距离时较为复杂，通常涉及 Ward 距离等公式。")
    print(f"初始状态: {n_samples} 个簇")
    
    # 简化演示：不做具体实现，仅说明迭代合并过程
    # while len(clusters) > n_clusters:
    #     # 计算簇间距离... (这是最耗时的一步)
    #     # 合并最近的两个簇
    #     pass
    return clusters

DBSCAN (基于密度的聚类)

对于 K-means 无法处理的非球形数据（如一个月亮形状的数据包另一个圆），DBSCAN 是救星。虽然 PyTorch 没有直接内置 DBSCAN，但理解其原理对于处理异常值非常有帮助。

DBSCAN 的两个关键参数是 INLINECODE6805dce9 (邻域半径) 和 INLINECODE11ff369f (最少点数)。它的逻辑是：如果某个点在其 epsilon 半径内包含至少 min_samples 个点，它就是一个核心点。然后，我们将所有可达的核心点连接起来形成一个簇。

在 PyTorch 中实现 DBSCAN 的难点在于“区域查询”，这通常需要空间索引树（如 KD-Tree）来加速，否则暴力计算的距离矩阵会非常庞大。因此，在实际工程中，我们通常使用 Scikit-learn 的 DBSCAN 对特征进行处理，然后将结果转换为 PyTorch 张量供后续神经网络使用。

评估聚类性能：如何知道效果好不好？

既然没有标签（无监督），我们怎么知道模型表现得好不好？这是我们经常面临的问题。你可以从以下几个角度来评估：

视觉检查：对于 2D 或 3D 数据，直接画图是最直观的。对于高维数据，你可以使用 t-SNE 或 UMAP 进行降维后再画图。
肘部法则：用于确定 K-means 的最佳 K 值。我们计算不同 K 值下的“簇内平方和误差”（SSE）。随着 K 增大，SSE 会减小，但当 K 达到某个值后，SSE 的下降速度会明显变缓，那个拐点就像手肘一样，就是最佳的 K。

def calculate_sse(X, centroids, labels):
    # 计算簇内平方和误差
    sse = 0
    for k in range(len(centroids)):
        cluster_points = X[labels == k]
        if len(cluster_points) > 0:
            # 计算该簇内所有点到质心的距离平方和
            sse += torch.sum((cluster_points - centroids[k]) ** 2).item()
    return sse

# 使用上面训练好的模型计算 SSE
sse_score = calculate_sse(tensor_data, centroids, labels)
print(f"当前的 SSE (簇内平方和): {sse_score:.4f}")
print("你可以尝试改变 K 值，绘制 SSE 随 K 变化的曲线，寻找肘部位置。")

轮廓系数：这是一个更定量的指标。它结合了簇内紧密度和簇间分离度。轮廓系数范围在 [-1, 1] 之间，越接近 1 效果越好。

总结与实战建议

在这篇文章中，我们不仅学习了什么是无监督聚类，更重要的是，我们掌握了如何利用 PyTorch 这一强大的深度学习框架来实现它。从零编写 K-means 让我们理解了矩阵运算在算法底层的重要性，而探讨层次聚类和 DBSCAN 则拓宽了我们解决数据问题的思路。

作为开发者，当你下次面对海量非结构化数据时，请记住以下几点：

不要害怕从底层实现：虽然库很方便，但自己写一遍能让你在遇到性能瓶颈时知道如何优化。
注意数据的标准化：K-means 对数值的大小非常敏感，务必在做聚类前对数据进行归一化或标准化处理。
混合使用工具：PyTorch 擅长张量计算和 GPU 加速，而 Scikit-learn 擅长传统算法实现和指标评估。将它们结合起来才是最高效的开发方式。

现在，你可以尝试将今天学到的代码应用到你的项目中，无论是处理客户分群、图像压缩还是异常检测，PyTorch 都能为你提供坚实的后盾。祝你编码愉快！

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客