深入解析聚类算法：从原理到实战应用的完整指南

2026-02-08 06:14:48 0条评论 3次阅读 0人点赞

在数据科学和机器学习的探索旅程中，聚类无疑是我们手中最强大的工具之一。它是无监督学习的核心，帮助我们在没有标签的数据中发现隐藏的结构和模式。想象一下，面对成千上万条客户数据，没有任何分类标签，我们需要如何找出其中的规律？这就是聚类算法大显身手的时候。

聚类算法的种类非常丰富，文献中记载的算法可能超过100种。在这篇文章中，我们不会试图罗列所有算法，而是带你深入了解最经典、最实用的几种聚类模型。我们将探讨它们的工作原理、优缺点，并通过代码实战来加深理解。准备好了吗？让我们开始这段探索之旅。

1 准备工作：引入必要的库
2 基于分布的方法
3 基于质心的方法
4 基于密度的方法
5 基于连通性的方法：层次聚类
6 进阶主题：子空间聚类
7 总结与下一步

准备工作：引入必要的库

在深入各种算法之前，我们需要准备好Python环境。我们将主要使用INLINECODE6a90a507、INLINECODE0db11944和matplotlib。为了演示方便，我们还需要一些模拟数据集。

import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
from sklearn.cluster import KMeans, AgglomerativeClustering, DBSCAN
from sklearn.mixture import GaussianMixture
from sklearn.preprocessing import StandardScaler

# 设置绘图风格和随机种子，保证结果可复现
plt.style.use(‘seaborn-v0_8-whitegrid‘)
np.random.seed(42)

# 生成一些模拟数据用于后续演示
# 我们创建两类数据：一类是月亮形（非凸），一类是球形（凸）
n_samples = 1500
noisy_moons = datasets.make_moons(n_samples=n_samples, noise=.05)[0]
blobs = datasets.make_blobs(n_samples=n_samples, random_state=8, cluster_std=1.5)[0]

# 可视化原始数据
fig, axs = plt.subplots(1, 2, figsize=(12, 5))
axs[0].scatter(noisy_moons[:, 0], noisy_moons[:, 1], s=5, c=‘b‘)
axs[0].set_title(‘非凸分布数据 (Moons)‘)
axs[1].scatter(blobs[:, 0], blobs[:, 1], s=5, c=‘g‘)
axs[1].set_title(‘凸分布数据
plt.show()

在上面的代码中，我们生成了两种截然不同的数据。这对于理解不同算法的适用场景至关重要。记住，没有一种算法是万能的，选择正确的算法就像为你的手选择合适的手套一样重要。

基于分布的方法

核心原理

基于分布的聚类方法，其核心思想是数学化的：它假设所有数据点都是由若干个概率分布混合生成的。通常，我们最常假设的是正态分布（高斯分布）。

这就好比我们在生活中观察人的身高。如果我们要对一群人进行聚类，我们可能会假设他们的身高服从几个特定的正态分布（比如“高个子群体”、“中等个子群体”等）。这种算法试图找到最能描述数据分布的概率密度函数参数。

期望最大化算法

最著名的基于分布的算法是期望最大化算法，通常用于高斯混合模型（GMM）。它的步骤如下：

E步：计算每个数据点属于每个聚类的概率。
M步：根据这些概率，更新分布的参数（均值和协方差矩阵）。

我们通过迭代这两步，直到模型收敛。

代码实战与解析

让我们用代码来实现它，看看它是如何处理我们之前生成的球形数据的。

# 使用高斯混合模型进行聚类
gmm = GaussianMixture(n_components=3, covariance_type=‘full‘, random_state=42)

# 注意：这里我们使用blob数据，因为GMM假设簇是椭圆形/球形的
# 实际上，GMM甚至能处理不同大小和方向的椭圆
pred_labels = gmm.fit_predict(blobs)

# 可视化结果
plt.figure(figsize=(8, 6))
plt.scatter(blobs[:, 0], blobs[:, 1], c=pred_labels, s=5, cmap=‘viridis‘, alpha=0.6)

# 绘制聚类中心（均值）
centers = gmm.means_
plt.scatter(centers[:, 0], centers[:, 1], c=‘red‘, s=200, marker=‘X‘, label=‘Centroids‘)
plt.title(‘基于分布的聚类 (GMM) 结果‘)
plt.legend()
plt.show()

print(f"模型收敛情况: {gmm.converged_}")
print(f"各聚类的权重: {gmm.weights_}")

实战见解

什么时候用？ 当你相信数据背后的数学模型是高斯分布时，或者你需要概率估计（比如：这个点有80%的概率属于A类，20%的概率属于B类）。
最佳实践：在运行GMM之前，务必进行数据标准化，因为协方差矩阵对数据的尺度非常敏感。
常见错误：强行对非正态分布的数据（比如同心圆）使用GMM，结果通常会很不理想。

基于质心的方法

核心原理

这是最直观也是最快的一类算法。K-均值 就是其中的代表。它的逻辑很简单：我们要找到 K 个中心点（质心），使得所有数据点到离它最近的中心点的距离平方和最小。

你可以把它想象成是在玩“抢地盘”的游戏：

随机挑选 K 个“队长”。
所有人根据距离远近，选择跟哪个队长。
队长移动到自己队伍的中心位置。
重复上述过程，直到队长不再移动。

代码实战与解析

让我们看看 K-Means 在我们的数据上表现如何。特别是，我们要尝试把它应用在“月亮形”数据上，看看会发生什么。

# 尝试在月亮形数据上运行 K-Means
k_means_moons = KMeans(n_clusters=2, random_state=42, n_init=‘auto‘)
k_means_blobs = KMeans(n_clusters=3, random_state=42, n_init=‘auto‘)

pred_moons = k_means_moons.fit_predict(noisy_moons)
pred_blobs = k_means_blobs.fit_predict(blobs)

# 绘图对比
fig, axs = plt.subplots(1, 2, figsize=(14, 6))

# 月亮数据结果
axs[0].scatter(noisy_moons[:, 0], noisy_moons[:, 1], c=pred_moons, s=5, cmap=‘coolwarm‘)
axs[0].set_title(‘K-Means 在月亮形数据上的表现 (失败案例)‘)

# 球形数据结果
axs[1].scatter(blobs[:, 0], blobs[:, 1], c=pred_blobs, s=5, cmap=‘coolwarm‘)
axs[1].set_title(‘K-Means 在球形数据上的表现 (成功案例)‘)

plt.show()

深入分析：K值的选择

你可能会问：“我怎么知道 K 选多少合适？” 这是一个经典问题。

手肘法：我们尝试不同的 K 值，计算“惯性”（即误差平方和）。当 K 增加时，惯性会下降。我们会发现一个像手肘一样的拐点，在此处之后惯性下降速度明显变缓，那个点就是最佳的 K。

# 手肘法演示代码
inertias = []
K_range = range(1, 10)

for k in K_range:
    kmeans = KMeans(n_clusters=k, random_state=42, n_init=‘auto‘)
    kmeans.fit(blobs)
    inertias.append(kmeans.inertia_)

plt.figure(figsize=(8, 4))
plt.plot(K_range, inertias, ‘bx-‘)
plt.xlabel(‘k (Number of clusters)‘)
plt.ylabel(‘Inertia‘)
plt.title(‘Elbow Method For Optimal k‘)
plt.show()

性能优化与注意事项

局限性：如上图所示，K-Means 假设簇是凸形的（球形）。对于长条形或环形数据，它会失效。此外，它对异常值非常敏感，一个远离中心的噪点可能会把质心拉偏很远。
优化建议：使用 Mini-Batch K-Means 可以在大规模数据上显著提升速度。使用 k-means++ 初始化（sklearn中已是默认）可以避免陷入局部最优解。

基于密度的方法

核心原理

如果说基于质心的方法是“看中心”，基于密度的方法就是“看人群密度”。这就像是在派对上找人群：不管你在哪里，只要周围聚集了一堆人，你们就是一个圈子。

DBSCAN (Density-Based Spatial Clustering of Applications with Noise) 是这类算法的王者。它不需要你指定簇的数量，而且能够神奇地识别出任意形状的簇，并自动把噪点剔除。

算法参数

DBSCAN 有两个关键参数：

eps (ε)：邻域的半径。如果两个点距离小于这个值，我们认为它们是邻居。
min_samples：形成一个密集区域所需的最小点数。

代码实战与解析

让我们看看 DBSCAN 如何完美解决 K-Means 搞不定的月亮形数据。

# DBSCAN 聚类
# eps 和 min_samples 是需要调整的超参数
db_moons = DBSCAN(eps=0.1, min_samples=5)
db_blobs = DBSCAN(eps=0.8, min_samples=10)

pred_moons_db = db_moons.fit_predict(noisy_moons)
pred_blobs_db = db_blobs.fit_predict(blobs)

# 绘图
fig, axs = plt.subplots(1, 2, figsize=(14, 6))

# 注意：DBSCAN会将噪点标记为-1，我们在绘图时特别处理
axs[0].scatter(noisy_moons[:, 0], noisy_moons[:, 1], c=pred_moons_db, s=5, cmap=‘viridis‘)
axs[0].set_title(f‘DBSCAN 在月亮形数据 (发现 {len(set(pred_moons_db)) - (1 if -1 in pred_moons_db else 0)} 个簇)‘)

axs[1].scatter(blobs[:, 0], blobs[:, 1], c=pred_blobs_db, s=5, cmap=‘viridis‘)
axs[1].set_title(f‘DBSCAN 在球形数据 (发现 {len(set(pred_blobs_db)) - (1 if -1 in pred_blobs_db else 0)} 个簇)‘)

plt.show()

实用见解与常见错误

参数敏感性：选择合适的 INLINECODE97d048a0 是一门艺术。如果 INLINECODEffaca791 太大，所有点都会连成一团；如果太小，所有点都会被视为噪点。
维度灾难：DBSCAN 在高维数据上效果会变差，因为“密度”的概念在高维空间中变得很难定义（所有点之间的距离都变远了）。
解决方案：在使用密度聚类前，通常先使用 PCA 或 T-SNE 进行降维处理。

基于连通性的方法：层次聚类

核心原理

这类算法不追求单一的划分，而是构建一个层次结构。就像生物分类学（界、门、纲、目、科、属、种）一样，它包含自底向上的聚拢和自顶向下的分裂。

最常用的是凝聚层次聚类。开始时，每个点都是一个簇。然后，算法不断合并最相似的两个簇，直到只剩下一个大簇。这个过程通常用树状图来表示。

代码实战与解析

# 层次聚类
agglo = AgglomerativeClustering(n_clusters=3, linkage=‘ward‘)

# 我们对blobs数据进行聚类
pred_blobs_agglo = agglo.fit_predict(blobs)

plt.figure(figsize=(8, 6))
plt.scatter(blobs[:, 0], blobs[:, 1], c=pred_blobs_agglo, s=5, cmap=‘spring‘)
plt.title(‘层次聚类结果
centers = [] # 层次聚类没有中心点，所以只画数据点
plt.show()

# 绘制树状图可以帮助我们直观地理解合并过程
from scipy.cluster.hierarchy import dendrogram, linkage

# 生成 linkage matrix
Z = linkage(blobs[:50], ‘ward‘) # 只取前50个点画图，否则树状图太密

plt.figure(figsize=(10, 4))
dendrogram(Z)
plt.title(‘层次聚类树状图 (前50个样本)‘)
plt.xlabel(‘样本索引‘)
plt.ylabel(‘距离‘)
plt.show()

可解释性：当你需要展示数据的层级关系时，层次聚类是最佳选择。例如，在电商中，你需要将商品分为“电子产品” -> “手机” -> “智能手机”这样的层级时。
缺点：计算量大，一旦合并就不能撤销。如果在这一步合并错了，后面就无法修正了。

进阶主题：子空间聚类

这是一个无监督学习的前沿领域。随着数据维度的爆炸式增长（例如基因数据、用户行为画像），传统的距离度量开始失效（维度灾难）。

核心概念

子空间聚类的思想是：也许某些簇只存在于数据的某些维度中，而不是全部维度。

举个例子：在分析电影观众时，

簇 A 可能只关注“动作”和“科幻”维度（喜欢科幻片的观众）。
簇 B 可能只关注“爱情”和“剧情”维度。

如果我们将所有维度混在一起计算距离，这两类人的距离可能并不远，因为他们可能在“年份”或“时长”上有很多重叠。子空间聚类试图在不同的子空间中寻找不同的簇。

算法分类

自顶向下算法：先寻找所有维度，然后逐步丢弃不相关的维度。
自底向上算法：先寻找低维空间中的簇，然后逐步合并。

应用场景

这在生物信息学和推荐系统中非常重要。但在使用时，我们必须注意数据隐私，因为这种精细的聚类往往涉及到用户特征的深度挖掘。

总结与下一步

在这篇文章中，我们一起探索了聚类算法的广阔天地。我们不仅仅是学习了定义，更重要的是理解了何时使用哪种算法：

K-Means：你的首选基线模型，快速、简单，适用于凸形簇。
GMM：当你需要概率分布或簇是椭圆分布时。
DBSCAN：当你处理复杂形状的数据，或者需要剔除噪点时。
层次聚类：当你需要理解数据的层级结构时。

给开发者的建议：

不要迷信算法的准确性。在实际工作中，你遇到的80%的问题其实是数据清洗和特征工程。在聚类之前，务必检查异常值，并对数据进行标准化（使用 StandardScaler）。

希望这篇指南能帮助你更好地理解聚类算法。下次当你拿到一堆杂乱无章的数据时，不要慌张，试着用今天学到的工具去“驯服”它们吧！

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客

深入解析聚类算法：从原理到实战应用的完整指南

准备工作：引入必要的库

基于分布的方法

核心原理

期望最大化算法

代码实战与解析

实战见解

基于质心的方法

核心原理

代码实战与解析

深入分析：K值的选择

性能优化与注意事项

基于密度的方法

核心原理

算法参数

代码实战与解析

实用见解与常见错误

基于连通性的方法：层次聚类

核心原理

代码实战与解析

进阶主题：子空间聚类

核心概念

算法分类

应用场景

总结与下一步

相关文章美国1G带宽/1T流量高速vps $17.99/年