深入理解 Scikit-Learn 中的高斯混合模型 (GMM) 及其协方差类型

2026-02-04 02:19:25 0条评论 2次阅读 0人点赞

在数据科学与机器学习的实践中，我们经常遇到聚类的问题。提到聚类，大多数人的第一反应往往是 K-Means。K-Means 简单直观，但它有一个强假设：簇是球形的且大小相似。然而，现实世界的数据往往更加复杂，簇的形状可能是椭圆的、延展的，甚至是重叠的。这时，我们就需要一种更强大的工具——高斯混合模型 (Gaussian Mixture Model, 简称 GMM)。

在这篇文章中，我们将深入探讨 GMM 的核心概念，特别是它在 Scikit-Learn 中的实现方式，以及不同协方差类型如何决定模型对数据形状的感知能力。我们将一起通过代码实战，看看如何利用 GMM 捕捉数据的微妙结构。

1 为什么选择高斯混合模型？
2 核心概念：解密协方差类型
3 实战演练：Scikit-Learn 中的 GMM
4 进阶技巧：处理常见挑战
5 总结

为什么选择高斯混合模型？

在开始代码之前，让我们先建立直觉。你可以把 GMM 想象成一种“软聚类”方法。与 K-Means 硬性地把每个点分配给一个簇不同，GMM 给出的是概率。对于一个数据点，GMM 会说：“它有 80% 的概率属于簇 A，20% 的概率属于簇 B”。

更重要的是，GMM 基于高斯分布（正态分布）。这不仅仅是一个统计学名词，它直接决定了簇的形状。通过调整协方差矩阵，我们可以让簇变得扁平、修长或者呈现特定的角度。这正是 GMM 相比 K-Means 最大的优势所在。

核心概念：解密协方差类型

在 Scikit-Learn 的 INLINECODEa1b67359 类中，参数 INLINECODE11588b4a 是控制模型复杂度和几何形状的关键。它决定了每个高斯分量（即每个簇）的协方差矩阵是如何构建的。理解这四种类型，是掌握 GMM 的必经之路。

1. Full (完整协方差)

这是最“奢华”的选择。每个簇都有自己的、完整的协方差矩阵。

几何形状：允许簇在任意方向上具有任意的延展度和方向。这意味着簇可以是任意旋转的椭圆。

n- 灵活性：最高。它能最紧密地贴合数据。

代价：参数最多。如果有 $n$ 个特征，每个簇需要估计 $n^2$ 个参数。这在数据维度高或数据量少时容易导致过拟合。

2. Tied (绑定协方差)

你可以把它想象成“共享资源”。所有的成分（簇）共享同一个协方差矩阵。

几何形状：所有簇必须具有相同的形状和方向（例如，所有椭圆都是扁平的且指向同一个方向），但它们的中心点可以不同。
适用场景：当你认为不同类别的数据在分布的“离散程度”上是一致的，只是位置不同时，这是一个极佳的选择。
优势：减少了需要估计的参数数量，有助于防止过拟合。

3. Diagonal (对角协方差)

这是一种折中方案。假设特征之间是相互独立的。

几何形状：簇的轴线必须平行于坐标轴。这意味着你可以得到沿 X 轴拉长或沿 Y 轴拉长的椭圆，但不能得到旋转的椭圆。
计算效率：非常高。因为它只需要计算对角线上的方差，忽略特征间的相关性。
常见用途：作为通用模型的首选起点，或者在特征独立性较强时使用。

4. Spherical (球形协方差)

这是最简单的模型，接近 K-Means 的假设。

几何形状：所有簇都是完美的球形（或超球体），在各个方向上的方差相同。
参数量：最少。每个簇只需要一个方差值。
限制：显然它是最不灵活的。如果你不确定数据的具体形状，这通常是一个太强的假设。

实战演练：Scikit-Learn 中的 GMM

光说不练假把式。现在，让我们打开 Python，用 Wine 数据集来看看不同的协方差类型在实际中是如何表现差异的。我们将一步步构建模型，对比结果。

第一步：环境准备与数据加载

首先，我们需要导入必要的库。为了可视化方便，我们只选取 Wine 数据集的前两个特征。虽然这丢弃了一些信息，但能让我们在二维平面上直观地看到“椭圆”的形状。

import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
from sklearn.mixture import GaussianMixture

# 加载 Wine 数据集
# Wine 数据集包含 178 个样本，13 个特征
wine = datasets.load_wine()

# 为了可视化方便，我们只取前两个特征（酒精含量和苹果酸）
# 在实际项目中，通常建议使用所有特征并结合降维技术（如 PCA）
X = wine.data[:, :2]
y = wine.target

print(f"数据形状: {X.shape}")

第二步：构建与训练模型

现在，到了最关键的部分。我们将实例化四个不同的 GMM 模型，分别对应四种协方差类型。我们将使用字典推导式来简化代码，使其更整洁。

# 定义高斯分量的数量
# 我们知道 Wine 数据集有 3 个类别，但为了演示聚类，我们这里先设为 3
n_components = 3

# 定义四种我们要测试的协方差类型
covariance_types = [‘full‘, ‘tied‘, ‘diag‘, ‘spherical‘]

# 初始化模型字典
# 这里我们还没有开始训练，只是定义好模型的结构
models = {
    cov_type: GaussianMixture(
        n_components=n_components, 
        covariance_type=cov_type,
        random_state=42,  # 设置随机种子以保证结果可复现
        max_iter=100      # 最大迭代次数
    )
    for cov_type in covariance_types
}

# 训练模型
# 遍历字典，对每个模型调用 .fit(X) 方法
print("正在训练模型...")
for cov_type, model in models.items():
    model.fit(X)
    print(f"- {cov_type} 模型训练完成")

第三步：深入模型属性

一旦模型训练完成，我们可以访问一些非常有用的属性来理解模型“学”到了什么。这是 GMM 最迷人的地方。

# 让我们看看 ‘full‘ 模型学到了什么
model_full = models[‘full‘]

print("
--- 模型内部参数解读 ---")

# 1. weights_: 混合系数，表示每个簇占总体的比例
print(f"
簇的权重比例: {model_full.weights_}")

# 2. means_: 每个高斯分布的均值（即簇的中心）
print(f"
簇的中心点: {model_full.means_}")

# 3. covariances_: 协方差矩阵，决定了簇的形状
# 注意：这里的形状取决于 covariance_type
# 对于 ‘full‘，形状是 (n_components, n_features, n_features)
print(f"
Full 类型的协方差矩阵形状: {model_full.covariances_.shape}")
print("第一个簇的协方差矩阵:")
print(model_full.covariances_[0])

实用见解：通过观察 weights_，你可以发现数据集中是否存在不平衡的簇。如果某个权重非常小（例如 0.01），可能意味着这是一个噪声点或者是一个非常稀有的子群。

第四步：可视化对比

让我们画几张图来直观感受一下四种协方差类型的区别。这比任何文字描述都来得直接。

def plot_gmm_results(X, models, covariance_types):
    """辅助函数：绘制不同协方差类型的聚类结果"""
    plt.figure(figsize=(12, 10))
    
    # 创建一个网格来评估模型的概率密度（用于画背景色）
    x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
    x = np.linspace(x_min, x_max, 100)
    y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
    y = np.linspace(y_min, y_max, 100)
    X_grid, Y_grid = np.meshgrid(x, y)
    XX = np.array([X_grid.ravel(), Y_grid.ravel()]).T

    for i, cov_type in enumerate(covariance_types):
        model = models[cov_type]
        
        plt.subplot(2, 2, i + 1)
        
        # 预测每个点的所属簇
        y_pred = model.predict(X)
        
        # 计算网格上的对数似然，用于绘制等高线（展示概率分布的形状）
        log_prob = model.score_samples(XX)
        log_prob = log_prob.reshape(X_grid.shape)
        
        # 绘制等高线
        # 这展示了高斯分布的“云雾”形状
        CS = plt.contour(X_grid, Y_grid, log_prob, levels=10, cmap=‘viridis‘, alpha=0.6)
        
        # 绘制原始数据点，按预测结果着色
        plt.scatter(X[:, 0], X[:, 1], c=y_pred, s=40, cmap=‘viridis‘, zorder=2, edgecolor=‘k‘)
        
        # 绘制簇的中心
        plt.scatter(model.means_[:, 0], model.means_[:, 1], c=‘red‘, s=100, marker=‘x‘, zorder=3, label=‘Centroid‘)
        
        plt.title(f"Covariance Type: ‘{cov_type}‘")
        plt.xlabel("Feature 1")
        plt.ylabel("Feature 2")
        plt.legend()

    plt.tight_layout()
    plt.show()

# 调用绘图函数
plot_gmm_results(X, models, covariance_types)

观察结果：

当你看到 spherical 的图时，你会发现围绕中心的等高线几乎是正圆，就像 K-Means 一样。
当你切换到 full 时，你会看到明显的、甚至是扭曲的椭圆，它们紧密地包裹着数据点。

进阶技巧：处理常见挑战

在实际工作中，我们很少遇到如此“完美”的数据。这里有一些我总结的经验，帮助你避开常见的坑。

1. 如何选择最佳的协方差类型？

这是一个典型的偏差-方差权衡问题。

Full: 拟合最好，但计算最慢，且容易过拟合。适用于小数据集且你对数据分布没有先验知识时。
Diagonal: 大多数情况下的“性价比之王”。它考虑了每个维度的独特性，但忽略了特征间的旋转关系。

实用建议：你可以使用贝叶斯信息准则 (BIC) 或 赤池信息准则 (AIC) 来客观评估哪个模型最好。Scikit-Learn 内置了计算方法。数值越低，模型越好（在考虑了复杂度之后）。

# 计算并比较 BIC 值
print("
--- 模型评估 (BIC 值越低越好) ---")
for cov_type, model in models.items():
    bic = model.bic(X)
    print(f"{cov_type}: BIC = {bic:.2f}")

# 通常 BIC 值最小的模型被认为是预测能力最好的模型
best_model_type = min(models.keys(), key=lambda k: models[k].bic(X))
print(f"
根据 BIC 准则，最佳模型类型是: {best_model_type}")

2. 避免奇点问题

GMM 的一个常见痛点是“奇异协方差矩阵”。如果一个簇只包含一个数据点，或者所有点都在一条直线上，协方差矩阵可能是不可逆的，导致训练崩溃。

解决方案：Scikit-Learn 的 INLINECODE478668dd 类有一个参数 INLINECODE2ee754a7。将其设置为一个很小的正数（如 1e-6），可以给协方差矩阵的对角线加一点“扰动”，保证数值稳定性。

# 稳健性示例
# 在遇到收敛警告或数值错误时，尝试调整这个参数
safe_model = GaussianMixture(
    n_components=3, 
    covariance_type=‘full‘, 
    reg_covar=1e-6
)

3. 特征缩放的重要性

GMM 基于欧几里得距离和方差。如果你的数据中，特征 A 的范围是 0-1，而特征 B 的范围是 0-10000，那么 GMM 几乎会完全忽略特征 A，只关注特征 B 的方差。

最佳实践：在将数据喂给 GMM 之前，一定要使用 INLINECODEda2dfe96 或 INLINECODE9e431e8b 进行归一化。

from sklearn.preprocessing import StandardScaler

# 正确的预处理流程
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X) # 记得在预测时也要对测试集做同样的变换

总结

今天，我们不仅学习了高斯混合模型的基础，更重要的是，我们掌握了如何通过 covariance_type 这个核心参数来控制模型的几何假设。我们发现，GMM 不仅仅是一个聚类算法，它是一个强大的概率生成模型。

回顾一下关键点：

Full 最灵活但最慢，Spherical 最快但最受限。
使用 BIC/AIC 准则来科学地选择模型，而不是瞎猜。
可视化（如果可能）是理解模型行为的最好方式。
别忘了数据预处理，这对距离敏感的模型至关重要。

下一步，我建议你可以尝试将 GMM 应用到异常检测任务中。你可以设定一个阈值，如果某个点属于所有高斯分量的概率都很低，那么它很可能是一个异常值。这将是你进阶学习的一步好棋。

希望这篇文章能帮助你在 Scikit-Learn 中更自信地使用 GMM！

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客