未知簇数下的无监督聚类：从理论到实践的完整指南

2026-02-01 20:14:59 0条评论 1次阅读 0人点赞

聚类作为无监督学习中的核心支柱，其魅力在于能够从看似杂乱无章的数据中发现隐藏的结构。然而，任何从事过数据科学工作的朋友都知道，在实际操作中，我们往往面临一个非常棘手的现实问题：我们根本不知道数据集中到底包含多少个类别。

在监督学习中，我们手握标签这把“金钥匙”，模型只需拟合输入与输出的关系。但在无监督聚类的世界里，这把钥匙并不存在。我们必须依靠算法的洞察力和我们的判断力来揭示数据的真相。如果不假思索地直接使用算法，很可能会得到毫无意义的结果。

在这篇文章中，我们将深入探讨在簇数量未知的情况下进行聚类的挑战。我们将学习多种确定最佳簇数的方法（如肘部法则和轮廓系数），并重点介绍像 DBSCAN 这样能够自动发现簇结构的先进算法。我还会为你提供详细的 Python 代码示例，并分享一些在实战中积累的经验和避坑指南。让我们开始这段探索之旅吧。

1 确定簇数量的核心挑战
2 确定簇数量的常用方法
3 方法一：肘部法则
4 方法二：轮廓系数
5 进阶方案：当簇不仅未知，且形状复杂时 —— DBSCAN
6 实战中的最佳实践与避坑指南
7 结语

确定簇数量的核心挑战

在动手写代码之前，我们需要先理解为什么“确定簇的数量”这么难。这不仅是一个数学问题，更是一个对数据本质理解的问题。以下是我们在这一过程中经常面临的主要障碍：

1. 领域知识的缺失与依赖

聚类不是在真空中进行的。通常，确定簇的数量需要结合特定的领域知识。比如，在对客户进行分群时，市场部的逻辑可能倾向于将客户分为 3 到 5 个大类，以便于制定营销策略。如果没有这些先验知识作为辅助，仅凭算法输出的数字，我们很难判断这个结果是否具有商业意义。

2. 簇的形状与大小差异

现实世界的数据很少像教科书示例那样整齐。簇的形状可能千奇百怪：有些可能是紧密的球形，有些可能是 elongated（细长）的链状，甚至有些是围绕中心的同心圆。许多传统算法（如 K-Means）倾向于寻找球形簇，如果数据本身是月牙形的，强行指定簇数会导致算法失效。同样，簇的大小差异巨大时，小簇很容易被大簇“吞噬”，导致数量估计错误。

3. 噪声和异常值的干扰

“一颗老鼠屎坏了一锅粥”在数据聚类中同样适用。异常值的存在会极大地扭曲聚类过程。例如，在 K-Means 中，为了覆盖几个远离中心的离群点，算法可能会强行分裂出一个本不该存在的簇，导致我们对簇数量的误判。正确识别并处理噪声，是获得准确簇数的关键一步。

4. 簇的重叠边界

在特征空间中，不同簇之间往往没有清晰的分界线。当簇之间存在较大重叠时，数据点之间的过渡是平滑的，这使得很难划出一条明确的界线来区分它们。在这种情况下，任何硬性的聚类（Hard Clustering）都显得有些力不从心，更不用说准确确定簇的数量了。

确定簇数量的常用方法

尽管挑战重重，但我们并非束手无策。在处理未知簇数的问题时，我们可以采用以下几种主流策略来寻找答案：

肘部法则：这是一种通过观察误差下降速度来确定拐点的方法，直观且常用。
轮廓系数：它衡量了样本与其自身簇的紧密度以及与其他簇的分离度，是一种定量的评估指标。
间隙统计量：通过比较实际数据的聚类效果与参考分布下的期望效果，来寻找最佳的簇数。
DBSCAN：这是一种基于密度的算法，它最大的优势在于不需要预先指定簇的数量，算法会根据密度自动“生长”出簇。

接下来，让我们通过实际的代码来看看这些方法是如何工作的。

方法一：肘部法则

肘部法则是最经典的启发式方法。它的核心思想很简单：随着簇数（k）的增加，每个簇内部会变得更紧凑，因此总的簇内平方和（WCSS，Within-Cluster Sum of Square）会自然下降。但是，当 k 增加到一定程度后，WCSS 的下降速度会明显变缓，这个转折点就像人的手肘一样，我们称之为“肘部点”。

实战代码

在下面的代码中，我们将使用 sklearn 生成一组数据，并循环计算不同 k 值下的 WCSS。

import matplotlib.pyplot as plt
import numpy as np
from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs

# 生成示例数据：为了演示，我们生成中心点较多的数据
# 实际上未知簇数时，我们并不知道 centers=4
X, y = make_blobs(n_samples=500, centers=4, cluster_std=0.60, random_state=0)

# 存储每个 k 值对应的 WCSS 值
wcss = []

# 我们通常测试从 1 到 10 个簇
k_range = range(1, 11)

for i in k_range:
    # n_clusters: 簇的数量
    # init=‘k-means++‘: 优化初始中心点的选择，避免陷入局部最优
    # max_iter=300: 算法最大迭代次数
    # n_init=10: 使用不同的随机种子运行算法10次，保留最佳模型
    kmeans = KMeans(n_clusters=i, init=‘k-means++‘, max_iter=300, n_init=10, random_state=0)
    kmeans.fit(X)
    # inertia_ 属性存储了 WCSS 值
    wcss.append(kmeans.inertia_)

# 绘制图形
plt.figure(figsize=(10, 5))
plt.plot(k_range, wcss, marker=‘o‘)
plt.title(‘寻找最佳簇数的肘部法则‘)
plt.xlabel(‘簇数量‘)
plt.ylabel(‘WCSS (簇内平方和)‘)
plt.grid(True)
plt.show()

代码解析与解读

运行这段代码，你会得到一条曲线。你会发现 WCSS 随 k 增加而急剧下降，但在某个点（比如 k=4）之后，曲线变得平缓。

注意点：肘部法则虽然直观，但有时并不总是能找到一个清晰的“肘部”。如果曲线非常平滑，这种方法的主观性就比较强。在这种情况下，我们需要结合其他指标。

方法二：轮廓系数

如果你觉得肘部法则太主观，那么轮廓系数可以给你提供更客观的数学依据。轮廓系数的范围在 [-1, 1] 之间：

接近 1：说明样本聚类合理，簇内紧凑，簇间分离。
接近 0：说明样本在簇边界上。
接近 -1：说明样本被分错了簇。

我们的目标是找到使平均轮廓系数最大的 k 值。

实战代码

from sklearn.metrics import silhouette_score

# 轮廓系数至少需要 2 个簇才能计算，所以 range 从 2 开始
silhouette_scores = []
k_range = range(2, 11)

for i in k_range:
    kmeans = KMeans(n_clusters=i, init=‘k-means++‘, max_iter=300, n_init=10, random_state=0)
    kmeans.fit(X)
    
    # 计算当前模型的平均轮廓系数
    score = silhouette_score(X, kmeans.labels_)
    silhouette_scores.append(score)
    # 打印分数方便观察
    print(f"For k={i}, Silhouette Score is {score:.4f}")

# 绘制轮廓系数图
plt.figure(figsize=(10, 5))
plt.plot(k_range, silhouette_scores, marker=‘o‘, color=‘green‘)
plt.title(‘轮廓系数法确定最佳簇数‘)
plt.xlabel(‘簇数量‘)
plt.ylabel(‘平均轮廓系数‘)
plt.grid(True)
plt.show()

深入理解输出

观察输出图表，最高的峰值对应的 k 值通常就是最佳的簇数。

经验之谈：在实战中，我通常会将肘部法则和轮廓系数结合使用。如果两者指向同一个 k 值，那么我们可以非常确信这个结果是正确的。

进阶方案：当簇不仅未知，且形状复杂时 —— DBSCAN

前面的 K-Means 及其变种方法都基于一个假设：簇是基于距离（欧氏距离）的凸形集合。但在很多场景下，数据分布是不规则的，比如环形数据或者弯月形数据。这时候，K-Means 就失效了。

DBSCAN (Density-Based Spatial Clustering of Applications with Noise) 是一个完全不同的思路。

不需要指定 k：你不需要告诉它有多少个簇。
基于密度：只要一个区域内的密度大于某个阈值，它就形成一个簇。
处理噪声：它会把那些稀疏的、不属于任何簇的点标记为“噪声”（-1）。

DBSCAN 关键参数

在使用 DBSCAN 时，我们关注的不再是 k，而是 INLINECODE4f01031c（邻域半径）和 INLINECODEcd8b995a（最小样本数）。

实战代码

让我们生成一些非凸形状的数据来测试 DBSCAN 的威力。

from sklearn.cluster import DBSCAN
from sklearn.datasets import make_moons

# 生成弯月形数据，这种数据 K-Means 处理不了
X_moons, y_moons = make_moons(n_samples=300, noise=0.05, random_state=0)

# 初始化 DBSCAN
# eps: 邻域半径，这个参数非常关键，决定了簇的粒度
# min_samples: 核心点所需的邻域内最小样本数
dbscan = DBSCAN(eps=0.2, min_samples=5)

# 训练模型
# 注意：DBSCAN 没有 .predict() 方法，直接用 fit_predict 获取标签
labels = dbscan.fit_predict(X_moons)

# 可视化结果
plt.figure(figsize=(10, 5))
# 核心逻辑：绘制散点图，颜色由聚类标签决定，-1 通常是黑色代表噪声
plt.scatter(X_moons[:, 0], X_moons[:, 1], c=labels, cmap=‘viridis‘, s=50)
plt.title(f"DBSCAN 聚类结果 (发现 {len(set(labels)) - (1 if -1 in labels else 0)} 个簇)")
plt.xlabel("Feature 1")
plt.ylabel("Feature 2")
plt.show()

为什么 DBSCAN 更适合未知簇数场景？

在这段代码中，我们没有指定 n_clusters=2，但 DBSCAN 完美地识别出了两个弯月。这是因为 K-Means 关注的是“距离”，而 DBSCAN 关注的是“连通性”。对于探索性数据分析，DBSCAN 往往能给我们带来意想不到的惊喜。

实战中的最佳实践与避坑指南

掌握算法原理只是第一步，在实际项目中应用这些技术时，还有一些细节需要特别注意。

1. 数据预处理至关重要

无论你选择哪种算法，标准化都是必须的。如果你的特征一个在 0-1 之间，另一个在 0-10000 之间，距离计算（K-Means 和 DBSCAN 都依赖距离）将被大数值的特征主导，导致聚类结果失效。

from sklearn.preprocessing import StandardScaler

# 这是一个通用的预处理模板
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)  # 使用标准化后的数据进行聚类

2. 代码优化建议

在计算 WCSS 或轮廓系数时，我们可以利用并行计算来加速。Scikit-learn 的 KMeans 和部分算法支持 n_jobs=-1 参数，这会使用你电脑的所有 CPU 核心来并行计算不同的 k 值，这在处理大数据集时能节省大量时间。

3. 如何判断该用哪种算法？

数据量巨大（百万级以上）：优先考虑 MiniBatchKMeans，计算速度极快。
数据维度极高（如文本数据）：先进行降维（PCA），然后再进行聚类，否则“维度灾难”会让距离度量失效。
数据形状复杂、有噪声：首选 DBSCAN 或 HDBSCAN（DBSCAN 的改进版）。
你需要层级结构：使用 层次聚类，它不仅能给你簇，还能给你一颗树状图，展示簇是如何合并的。

4. 常见错误：忽略 `random_state`

在使用 K-Means 时，由于初始中心点是随机选取的，每次运行结果可能不同。为了保证代码的可复现性，一定要设置 random_state（通常设为 0 或 42）。

结语

在未知簇数量的情况下进行聚类，既是挑战也是机遇。通过结合肘部法则、轮廓系数这类启发式方法，以及 DBSCAN 这类基于密度的算法，我们不再需要盲猜数据中隐藏着多少个分类。

在实际工作中，建议你不要只依赖一种算法。先用 K-Means 配合轮廓系数做一个基线测试，看看球形簇的效果如何；然后用 DBSCAN 探索一下是否存在不规则的形状或噪声。对比两者的结果，往往能让你对数据的结构有更深刻的理解。

希望这篇指南能帮助你在数据分析的道路上更进一步。现在，打开你的编辑器，试试在你的数据集上跑一跑这些代码，看看你会发现什么！

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客

未知簇数下的无监督聚类：从理论到实践的完整指南

确定簇数量的核心挑战

1. 领域知识的缺失与依赖

2. 簇的形状与大小差异

3. 噪声和异常值的干扰

4. 簇的重叠边界

确定簇数量的常用方法

方法一：肘部法则

实战代码

代码解析与解读

方法二：轮廓系数

实战代码

深入理解输出

进阶方案：当簇不仅未知，且形状复杂时 —— DBSCAN

DBSCAN 关键参数

实战代码

为什么 DBSCAN 更适合未知簇数场景？

实战中的最佳实践与避坑指南

1. 数据预处理至关重要

2. 代码优化建议

3. 如何判断该用哪种算法？

4. 常见错误：忽略 `random_state`

结语

相关文章美国1G带宽/1T流量高速vps $17.99/年

未知簇数下的无监督聚类：从理论到实践的完整指南

确定簇数量的核心挑战

1. 领域知识的缺失与依赖

2. 簇的形状与大小差异

3. 噪声和异常值的干扰

4. 簇的重叠边界

确定簇数量的常用方法

方法一：肘部法则

实战代码

代码解析与解读

方法二：轮廓系数

实战代码

深入理解输出

进阶方案：当簇不仅未知，且形状复杂时 —— DBSCAN

DBSCAN 关键参数

实战代码

为什么 DBSCAN 更适合未知簇数场景？

实战中的最佳实践与避坑指南

1. 数据预处理至关重要

2. 代码优化建议

3. 如何判断该用哪种算法？

4. 常见错误：忽略 random_state

结语

相关文章美国1G带宽/1T流量高速vps $17.99/年

4. 常见错误：忽略 `random_state`