深入理解机器学习中的线性判别分析 (LDA)：从原理到 Python 实战

2026-02-04 19:51:16 0条评论 1次阅读 0人点赞

你是否曾经在处理分类问题时，面对成百上千个特征感到无从下手？或者当你试图将数据可视化时，发现高维数据在二维平面上简直是一团乱麻？别担心，这正是我们要一起探讨的线性判别分析（Linear Discriminant Analysis，简称 LDA）大显身手的时候。

在这篇文章中，我们将深入探讨 LDA 这种经典的监督学习技术。它不仅能帮助我们通过降维来简化模型，还能在最大程度上保留不同类别之间的区分度。无论是为了可视化，还是为了提高分类器的性能，LDA 都是你工具箱中必不可少的利器。

1 什么是线性判别分析 (LDA)？
2 LDA 的关键假设
3 LDA 的工作原理：数学直觉
4 LDA 的扩展家族
5 Python 实战：使用 Scikit-Learn 实现 LDA
6 实际应用中的注意事项
7 总结

什么是线性判别分析 (LDA)？

线性判别分析（LDA），有时也被称为正态判别分析（Normal Discriminant Analysis, NDA），是一种用于分类和降维的强大技术。简单来说，它通过寻找特征空间的线性组合，将高维数据投影到低维空间（通常是一条线或一个平面），从而实现类别的最佳分离。

让我们想象一下，假设你是一个植物学家，想要根据花瓣长度和宽度等特征自动区分两种不同的鸢尾花。如果你只看一个特征（比如只看花瓣长度），两种花的数据可能在坐标轴上重叠得非常厉害，很难画出一条清晰的界线。

这时候，LDA 就会站出来说：“让我来综合考量所有特征。” 它会计算出一个新的轴——一个最优的投影方向。当我们把数据投射到这个新轴上时，原本混在一起的数据点就会被像拉面一样拉开，不同类别的均值会被分开，而同一类别的内部方差会被压缩。这样，分类就变得轻而易举了。

核心思想：最大化分离度

LDA 的核心目标非常直观：它试图找到一个投影方向，使得在这个方向上，不同类别之间的距离（类间距离）尽可能大，而同一类别内部的离散程度（类内方差）尽可能小。这句话是理解 LDA 的金钥匙，请务必记住。

LDA 的关键假设

就像许多统计学模型一样，LDA 在发挥最佳效果时，基于一些重要的假设。理解这些假设有助于我们判断何时使用 LDA，以及何时可能需要寻找替代方案（如 QDA）。

为了让 LDA 有效执行，我们需要满足以下条件：

高斯分布（正态分布）：LDA 假设每个类别的数据都是呈正态分布的（即熟悉的钟形曲线）。虽然现实中数据很难完美符合，但如果数据严重偏离正态分布，LDA 的效果可能会打折扣。
协方差矩阵相等：这是一个比较强的假设。LDA 假设不同类别的数据具有相同的协方差结构。换句话说，不同类别的“形状”和“ spread ”（散布）应该是相似的，只是中心位置（均值）不同。如果各类别的形状差异巨大，可能需要考虑二次判别分析（QDA）。
线性可分性：正如其名，LDA 试图通过线性方式（直线或平面）来分离数据。如果数据本质上是非线性可分的（例如同心圆分布），单纯的 LDA 可能会遇到麻烦，这时候可能需要结合核技巧或使用其他的非线性方法。

LDA 的工作原理：数学直觉

让我们稍微深入一点数学层面，看看它是如何运作的。别担心，我们会保持通俗易懂，主要关注背后的直觉。

假设我们有两个类别，我们需要在这个 $d$ 维空间中找到一个方向向量 $v$。当我们把数据点 $xi$ 投影到这个向量上时，得到的是 $v^T xi$。

我们的目标是让投影后的数据点分得越开越好。具体来说，我们想要最大化以下这个比率，通常被称为费希尔准则（Fisher‘s Criterion）：

J(v) = \frac{\text{类间离散度}}{\text{类内离散度}}

这听起来很抽象，对吧？让我们把它拆解开来：

分子（类间离散度）：我们希望两个类别的中心（均值）在投影后离得越远越好。如果我们用 $\mu1$ 和 $\mu2$ 表示原始的类别均值，那么投影后的均值差就是 $ v^T \mu1 – v^T \mu2
$。我们要最大化这个值。
分母（类内离散度）：仅仅中心分开还不够，我们还需要每个类别自己的数据点都要紧紧地抱成一团。也就是说，每个点到自己类别的中心的距离要越小越好。这类似于方差的概念。

LDA 的神奇之处在于，它通过数学推导证明，使得上述比率最大化的向量 $v$，恰好对应于类内离散度矩阵的逆与类间离散度矩阵乘积（$Sw^{-1} Sb$）的最大特征值对应的特征向量。

这种数学上的优雅保证了我们找到的新轴不仅能区分类别，还能在最大程度上减少重叠。

LDA 的扩展家族

标准 LDA 很强大，但世界是复杂的。为了处理更棘手的情况，统计学家们还开发了 LDA 的几个变种：

二次判别分析 (QDA)：如果你发现不同类别的协方差矩阵差异很大（比如一个类别很“瘦长”，另一个很“扁平”），那么 QDA 可能是更好的选择。它允许每个类别有自己的协方差矩阵，但代价是参数更多，更容易过拟合。
正则化判别分析 (RDA)：当特征数量很高，甚至超过样本数量时，协方差矩阵的估计会变得非常困难。RDA 通过引入正则化项（类似于岭回归），人为地“收缩”协方差矩阵，从而提高模型的稳定性和预测能力。

Python 实战：使用 Scikit-Learn 实现 LDA

光说不练假把式。现在，让我们打开 Python，利用强大的 scikit-learn 库来看看 LDA 在经典的 Iris（鸢尾花）数据集上是如何工作的。我们将通过几个完整的例子来演示。

准备工作

首先，我们需要导入必要的库。

# 导入数据处理和可视化库
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

# 导入 Scikit-learn 中的数据集、模型和评估工具
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

# 设置绘图风格（可选，为了让图更好看）
plt.style.use(‘seaborn-v0_8-whitegrid‘)

示例 1：基础 LDA 降维与可视化

在这个例子中，我们将加载 Iris 数据集，将其从 4 维降到 2 维，并进行可视化。这是理解 LDA 效果最直观的方式。

def run_lda_example():
    # 1. 加载数据
    iris = load_iris()
    X = iris.data
    y = iris.target
    target_names = iris.target_names

    # 2. 划分训练集和测试集
    # 这是一个良好的机器学习实践，防止过拟合
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

    # 3. 数据预处理（标准化）
    # 虽然 LDA 本身对尺度不敏感（因为它寻找的是方向），
    # 但标准化通常是一个好的习惯，特别是如果我们后续要用到其他算法。
    scaler = StandardScaler()
    X_train_scaled = scaler.fit_transform(X_train)
    X_test_scaled = scaler.transform(X_test)

    # 4. 创建并拟合 LDA 模型
    # n_components=2 意味着我们想把数据降到 2 维
    lda = LinearDiscriminantAnalysis(n_components=2)
    X_train_lda = lda.fit_transform(X_train_scaled, y_train)
    
    # 注意：我们也可以对测试集进行变换，以便观察其在同一空间的位置
    X_test_lda = lda.transform(X_test_scaled)

    # 5. 可视化结果
    plt.figure(figsize=(10, 6))
    colors = [‘red‘, ‘green‘, ‘blue‘]
    lw = 2

    for color, i, target_name in zip(colors, [0, 1, 2], target_names):
        # 绘制训练集数据（实心圆）
        plt.scatter(X_train_lda[y_train == i, 0], X_train_lda[y_train == i, 1], 
                    alpha=0.8, color=color, label=f‘训练集: {target_name}‘,
                    marker=‘o‘, s=50)
        
        # 绘制测试集数据（空心圆或小点），看看它们是否落在对应的区域
        plt.scatter(X_test_lda[y_test == i, 0], X_test_lda[y_test == i, 1], 
                    alpha=0.6, color=color, label=f‘测试集: {target_name}‘,
                    marker=‘x‘, s=50)

    plt.legend(loc=‘best‘, shadow=False, scatterpoints=1)
    plt.title(‘LDA 降维：Iris 数据集投影 (2D)‘)
    plt.xlabel(‘判别轴 1 (LD1)‘)
    plt.ylabel(‘判别轴 2 (LD2)‘)
    plt.show()
    
    print("解释方差比率（即每个轴携带了多少类别区分信息）:")
    print(lda.explained_variance_ratio_)

# 运行示例
run_lda_example()

代码解析：

在这段代码中，你首先应该注意到 INLINECODE044e05b1 方法的使用。这里我们传入了 INLINECODE256b668f！这一点至关重要。与 PCA（主成分分析）不同，LDA 是一种有监督的方法。它需要标签信息 $y$ 来计算类间方差和类内方差，从而找到最佳投影方向。如果没有传入 $y$，scikit-learn 会抛出错误。

示例 2：LDA 作为分类器

除了降维，LDA 本身就是一个非常优秀的分类器。在这个例子中，我们直接使用 LDA 来预测花朵的类别。

def run_lda_classifier():
    iris = load_iris()
    X = iris.data
    y = iris.target

    # 划分数据集
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.4, random_state=0)

    # 实例化 LDA 分类器
    # 默认情况下，solver=‘svd‘，这是一种快速且稳定的求解器
    clf = LinearDiscriminantAnalysis()
    
    # 训练模型
    clf.fit(X_train, y_train)
    
    # 预测
    y_pred = clf.predict(X_test)
    
    # 评估
    print("--- LDA 分类器性能评估 ---")
    print(f"准确率: {accuracy_score(y_test, y_pred):.4f}")
    print("
混淆矩阵:")
    print(confusion_matrix(y_test, y_pred))
    print("
分类报告:")
    print(classification_report(y_test, y_pred, target_names=iris.target_names))

# 运行分类器示例
run_lda_classifier()

实战见解：

LDA 作为分类器时，它的决策边界是线性的。这类似于逻辑回归，但 LDA 更加强调数据的分布特性。当你运行这段代码时，你会发现对于 Iris 这样相对简单的数据集，LDA 的准确率通常非常高，往往能达到 98% 甚至 100%。

示例 3：比较 LDA 与 PCA

很多初学者容易混淆 LDA 和 PCA（主成分分析）。虽然两者都用于降维，但目的截然不同。

PCA 试图保留数据的全局方差（即信息量）。它不管你是哪个类别，只要数据散得开，PCA 就认为是主要成分。它是无监督的。

LDA 试图保留类别区分信息。它忽略那些虽然方差大但对分类没帮助的特征。它是有监督的。

让我们通过代码看看它们在可视化上的区别：

from sklearn.decomposition import PCA

def compare_lda_pca():
    iris = load_iris()
    X = iris.data
    y = iris.target
    target_names = iris.target_names

    # 1. PCA 降维
    pca = PCA(n_components=2)
    X_pca = pca.fit_transform(X)

    # 2. LDA 降维
    lda = LinearDiscriminantAnalysis(n_components=2)
    X_lda = lda.fit_transform(X, y)

    # 创建画布
    fig, axs = plt.subplots(1, 2, figsize=(16, 6))

    # 绘制 PCA 结果
    colors = [‘navy‘, ‘turquoise‘, ‘darkorange‘]
    for color, i, target_name in zip(colors, [0, 1, 2], target_names):
        axs[0].scatter(X_pca[y == i, 0], X_pca[y == i, 1], 
                       color=color, alpha=0.8, lw=2, label=target_name)
    axs[0].title.set_text(‘PCA (无监督：最大化方差)‘)
    axs[0].set_xlabel(‘PC1‘)
    axs[0].set_ylabel(‘PC2‘)
    axs[0].legend(loc=‘best‘, shadow=False, scatterpoints=1)

    # 绘制 LDA 结果
    for color, i, target_name in zip(colors, [0, 1, 2], target_names):
        axs[1].scatter(X_lda[y == i, 0], X_lda[y == i, 1], 
                       color=color, alpha=0.8, lw=2, label=target_name)
    axs[1].title.set_text(‘LDA (有监督：最大化类别可分性)‘)
    axs[1].set_xlabel(‘LD1‘)
    axs[1].set_ylabel(‘LD2‘)
    axs[1].legend(loc=‘best‘, shadow=False, scatterpoints=1)

    plt.show()

# 运行比较
compare_lda_pca()

当你观察生成的图表时，你会发现一个非常有趣的现象：在 PCA 的图中，虽然数据点也分开了，但可能不同颜色的点混杂在一起。而在 LDA 的图中，不同颜色的簇通常会被拉得更开，甚至完全分离。这就是监督学习的力量——它知道我们要找什么。

实际应用中的注意事项

在真实项目中使用 LDA 时，有几个坑是你必须留意的：

小样本量问题：当特征数量 $d$ 远大于样本数量 $n$ 时（比如图像处理中，像素数远超图片数），类内离散度矩阵 $S_w$ 将是奇异的，不可逆。这时候普通的 LDA 无法计算。

* 解决方案：使用正则化 LDA（RDA）或者先用 PCA 进行初步降维，减少特征数量，再用 LDA 提取类别特征。

类别不平衡：如果某些类别的样本非常少，LDA 计算出的均值和协方差矩阵可能会严重偏向于多数类。

* 解决方案：在训练前使用过采样或欠采样技术平衡数据集，或者在模型参数中调整 priors（先验概率）。

非正态分布数据：如果数据严重违反正态分布假设，LDA 的分类边界可能不再是最优的。

* 解决方案：考虑使用 QDA（二次判别分析）或者非参数方法。

数据预处理：虽然没有强制要求，但在做 LDA 之前移除异常值通常是个好主意。因为 LDA 对均值敏感，异常值可能会显著拉动均值，从而改变投影方向。

总结

今天，我们一起走完了线性判别分析（LDA）的探索之旅。我们了解了它是如何通过数学魔法将高维数据投影到低维空间，同时最大化类别的分离度。

我们不仅复习了费希尔准则和协方差矩阵等核心概念，还通过 Python 代码亲自上手实践了：

使用 LDA 进行数据可视化。
使用 LDA 作为分类器进行预测。
比较了 LDA 与 PCA 的本质区别。

关键要点：

LDA 是一种有监督的学习算法，这与 PCA 截然不同。
它的目标是让同类数据尽可能紧凑，异类数据尽可能分开。
在处理线性可分且符合正态分布的数据时，LDA 是一个极其高效且稳健的选择。

你准备好在自己的数据集上尝试 LDA 了吗？如果你的数据特征繁多且带有标签，不妨试试用 LDA 给数据“减减肥”，看看能不能发现肉眼难以察觉的类别结构。祝你机器学习之旅愉快！

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客