深入理解局部线性嵌入（LLE）：从理论到 Python 实战

2026-02-06 01:27:53 0条评论 2次阅读 0人点赞

在现代机器学习和数据科学领域，我们经常面临处理高维数据的挑战。这些数据可能包含成百上千个特征，例如图像像素、基因表达数据或复杂的传感器信号。直接处理这些数据不仅计算成本高昂，而且容易陷入所谓的“维数灾难”。更重要的是，数据的本质结构往往隐藏在较低的维度中。

为了解决这些问题，我们可以使用降维技术。你可能听说过主成分分析（PCA），它是一种经典的线性方法。然而，现实世界的数据往往是非线性的。这时，局部线性嵌入 就派上用场了。

在这篇文章中，我们将深入探讨 LLE 的核心概念、数学原理、算法步骤，以及如何使用 Python 和 Scikit-learn 来实际应用它。我们将通过可视化的方式，理解 LLE 是如何巧妙地“展开”复杂的数据结构的。

为什么选择 LLE？

LLE 在降维领域占有独特的地位，原因在于它独特的非线性处理能力。与试图保留全局方差（如 PCA）的方法不同，LLE 关注的是局部结构。以下是 LLE 成为数据科学家工具箱中重要工具的几个理由：

保留局部几何结构：LLE 能够确保在降维后，数据点之间的邻近关系保持不变。如果点 A 在高维空间中靠近点 B，那么在低维空间中它们依然应该很近。
捕捉非线性流形：许多高维数据实际上位于一个低维的流形上，就像卷起来的地毯。LLE 能够通过局部线性假设来“展开”这些复杂的流形，这是线性方法无法做到的。
无需迭代优化：与 t-SNE 或某些自编码器不同，标准 LLE 的计算涉及特征值分解，不需要漫长的迭代训练过程（尽管在处理非常大的数据集时计算量依然很大）。
唯一的全局最优解：由于 LLE 最终归结为求解稀疏矩阵的特征值问题，因此它不存在局部最优解的问题，结果是确定性的。
强大的可视化能力：对于将高维数据投影到 2D 或 3D 空间进行探索性数据分析（EDA），LLE 提供了非常直观的视觉效果。

核心概念与直观理解

让我们通过一个经典的思维实验来理解 LLE：瑞士卷。

想象你手里有一卷卷起来的瑞士卷蛋糕（或者地毯）。虽然它存在于 3D 空间中，但其本质上是一个 2D 的平面卷曲而成的。如果我们直接使用 PCA，它可能会找到一条穿过蛋糕中心的直线，这样会将卷曲层压扁在一起，从而破坏了结构。

LLE 的做法则完全不同：

局部：它在蛋糕表面取一个个小点，并只关注它周围紧邻的邻居。
线性：它假设任何一个点都可以由它周围的邻居通过线性组合（加权求和）来重建。
嵌入：它试图在低维空间（2D 平面）中找到新的坐标点，使得这些点依然可以用相同的权重由其邻居重建。

通过这种方式，LLE 就像是把卷曲的蛋糕“切开并铺平”在桌面上，同时保持了蛋糕表面的图案（数据点之间的关系）不发生扭曲。

LLE 算法的工作原理

从技术角度来看，LLE 算法的实现可以清晰地划分为三个主要阶段。让我们详细拆解每一步：

#### 1. 邻域选择

这是算法的第一步，也是对结果影响最大的一步。

目标：为高维空间中的每个数据点 $x_i$ 找到它的 $k$ 个最近邻。
方法：通常使用 K-近邻算法（KNN）或基于半径的搜索方法。欧几里得距离是最常用的度量标准。
关键点：这里的 $k$ 是一个超参数。如果 $k$ 太小，算法可能会对噪声过于敏感；如果 $k$ 太大，算法可能会忽略局部的非线性细节，退化为类似 PCA 的效果。

#### 2. 线性重构与权重计算

找到邻居后，我们假设每个点都可以由其邻居的线性组合来近似表示。

目标：找到权重 $w{ij}$，使得 $xi \approx \sum{j} w{ij} x_j$。
约束条件：对于任何点 $xi$，其所有邻居的权重之和为 1，即 $\sumj w_{ij} = 1$。这保证了平移不变性。
数学原理：我们通过最小化重构误差来求解这些权重。有趣的是，这些权重是旋转、缩放和平移不变的。这意味着无论数据在空间中如何扭曲，只要局部几何结构不变，权重就是不变的。

#### 3. 低维嵌入

这是最后一步，我们将这种局部关系映射到低维空间。

目标：找到低维向量 $y_i$，使得它们在低维空间中依然满足由步骤 2 计算出的权重关系。
方法：这转化为一个特征值问题。我们构造一个稀疏矩阵，并找到对应于最小非零特征值的特征向量。这些特征向量就构成了最终的坐标。

数学实现简述

如果你对数学公式感兴趣，以下是 LLE 的核心数学表达。

第一步：邻域选择

对于每个数据点 $x_i$，找到其最近邻集合 $N(i)$。

第二步：最小化重构误差

我们需要找到权重 $W$ 来最小化误差函数：

$$ \epsilon(W) = \sumi \left\

xi – \sum{j \in N(i)} w{ij} x_j \right\

^2 $$

在约束条件 $\sumj w{ij} = 1$ 下，这通常可以通过求解一个最小二乘问题来解决。为了处理数值稳定性问题，通常还会添加一个正则化项。

第三步：固定权重下的嵌入

现在我们固定权重 $W$，寻找低维坐标 $Y$ 来最小化代价函数：

$$ \Phi(Y) = \sumi \left\

yi – \sum{j \in N(i)} w{ij} y_j \right\

^2 $$

通过数学变换，这个问题最终可以简化为求解矩阵 $M = (I – W)^T (I – W)$ 的特征向量。我们取对应于最小特征值的 $d$ 个特征向量作为输出。

Python 实战：使用 Scikit-Learn

理论说得再多，不如动手实践一下。让我们使用 Python 的 scikit-learn 库来实现 LLE。

#### 1. 准备工作与生成数据

首先，我们需要生成一些非线性的高维数据。“瑞士卷”数据集是测试 LLE 的标准案例。

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_swiss_roll
from sklearn.manifold import LocallyLinearEmbedding

# 生成瑞士卷数据
# n_samples: 样本数量, noise: 噪声水平
X, color = make_swiss_roll(n_samples=1500, noise=0.1, random_state=42)

# 原始数据的维度
print(f"原始数据形状: {X.shape}") # 应该是 (1500, 3)

#### 2. 执行 LLE 降维

现在，我们将使用 INLINECODE4003c0b5 类将 3D 数据降至 2D。这里最关键的参数是 INLINECODE8b5b42aa。

# 初始化 LLE 模型
# n_components: 目标维度 (2D)
# n_neighbors: 邻居数量，这是一个关键的超参数
n_neighbors = 12
lle_model = LocallyLinearEmbedding(
    n_neighbors=n_neighbors, 
    n_components=2, 
    method=‘standard‘,
    eigen_solver=‘auto‘,
    random_state=42
)

# 拟合模型并转换数据
X_transformed = lle_model.fit_transform(X)

# 输出结果的形状
print(f"降维后数据形状: {X_transformed.shape}") # 应该是 (1500, 2)

# 计算重构误差（可选，用于调试）
print(f"重构误差: {lle_model.reconstruction_error_}")

#### 3. 结果可视化对比

让我们画图来看看 LLE 到底做了什么。

# 创建画布
fig = plt.figure(figsize=(12, 6))

# 子图 1: 原始 3D 数据
ax1 = fig.add_subplot(121, projection=‘3d‘)
ax1.scatter(X[:, 0], X[:, 1], X[:, 2], c=color, cmap=plt.cm.Spectral, s=5)
ax1.set_title("原始数据 (3D 瑞士卷)")
ax1.view_init(elev=10, azim=-80) # 设置视角

# 子图 2: LLE 降维后的 2D 数据
ax2 = fig.add_subplot(122)
ax2.scatter(X_transformed[:, 0], X_transformed[:, 1], c=color, cmap=plt.cm.Spectral, s=5)
ax2.set_title(f"LLE 降维结果 (n_neighbors={n_neighbors})")
ax2.grid(True)

plt.tight_layout()
plt.show()

代码解析：

n_neighbors=12：我们假设每个点由周围 12 个最近的点线性组合而成。这个值对于瑞士卷通常效果不错，但对于其他数据集可能需要调整。
method=‘standard‘：指定使用标准 LLE 算法。
可视化：你可以看到，原本卷曲的 3D 结构在 2D 平面上被“展开”了，且颜色的渐变（代表数据流形的连续性）得到了很好的保留。

关键参数深度解析

在使用 Scikit-learn 的 LocallyLinearEmbedding 时，你需要特别关注以下参数，它们直接决定了算法的成败：

n_neighbors (最重要的参数)

– 含义：用于重构每个点的邻居数量。

– 建议：

– 如果设置得太小（例如 2-3），算法会非常关注局部，可能会把数据“切”得太碎，导致流形被分割成不连续的块。

– 如果设置得太大（例如 50+），模型会趋向于线性，类似 PCA，可能无法捕捉到精细的非线性结构。

– 通常，对于较小的数据集，10 到 15 是一个不错的起点。

n_components

– 含义：输出数据的维度。

– 建议：通常设为 2 或 3 用于可视化。如果是为了作为特征提取给下游分类器使用，可能需要通过交叉验证来选择更高的维度。

reg (正则化)

– 含义：当局部协方差矩阵不满秩时（例如邻居数多于原始维度，或数据存在多重共线性），我们需要添加一个正则化项来计算逆矩阵。

– 建议：通常使用默认值即可，但在遇到 LinAlgError（线性代数错误）时，增加这个参数的值可能会解决问题。

eigen_solver

– 含义：特征值求解器。

– 选项：

– ‘auto‘：自动选择。

– ‘arpack‘：使用 ARPACK 包装器，适合稀疏矩阵（通常最推荐）。

– ‘dense‘：使用标准的 LAPACK 求解器，适合数据量不大但邻居数很多的情况。

进阶技巧与最佳实践

仅仅调用库函数是不够的，作为一名经验丰富的开发者，你还需要了解一些进阶技巧。

#### 处理算法失效的情况：Modified LLE (MLLE)

标准 LLE 有一个已知的问题：当数据流形中的某些区域存在“空洞”或者数据密度不均匀时，可能会出现“crowding problem”（拥挤问题），即原本应该分开的点被挤在了一起。

Scikit-learn 提供了一种变体叫做 Modified LLE。它在计算权重时使用多个权重向量来应对局部几何结构的复杂情况，通常能产生更稳定的解。

# 尝试使用 Modified LLE
# 注意：method 参数改为 ‘modified‘ 或 ‘ltsa‘ 或 ‘hessian‘
lle_m = LocallyLinearEmbedding(n_neighbors=12, n_components=2, method=‘modified‘)
X_m = lle_m.fit_transform(X)

# 可视化对比通常显示 MLLE 在某些情况下展开得更为均匀

#### 数据预处理的重要性

LLE 对数据的尺度非常敏感。因为它依赖于欧几里得距离来寻找邻居，如果某个特征的数值范围特别大（例如 0-10000），而另一个特征很小（0-1），那么距离计算就会完全被大特征主导。

最佳实践：在应用 LLE 之前，务必使用 INLINECODE3d1b41eb 或 INLINECODE69c9786b 对数据进行标准化处理。

from sklearn.preprocessing import StandardScaler

# 生成一个尺度不一致的数据示例（模拟真实场景）
X_noisy = X * np.array([1, 100, 0.01]) # 故意扭曲坐标轴尺度

# 必须先标准化
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X_noisy)

# 然后再跑 LLE
lle = LocallyLinearEmbedding(n_neighbors=12, n_components=2)
X_final = lle.fit_transform(X_scaled)

实际应用场景

除了处理瑞士卷这种玩具数据集，LLE 在实际中有哪些用途呢？

图像去噪与人脸识别：在“特征脸”时代，LLE 曾被用于提取人脸图像的本征特征。它假设所有人脸图像位于一个高维图像空间中的低维流形上。利用 LLE 可以从这个流形中提取出光照和表情变化的潜在变量。
生物信息学：在基因表达数据分析中，样本通常具有数万个特征（基因）。LLE 可以将其降至 2D/3D 用于可视化，帮助研究者识别出不同的细胞亚群。
半监督学习：LLE 可以用于标签传播。基于流形假设，我们可以利用 LLE 找到的低维结构，将已知标签的信息传递给未标记的邻近点。

常见问题与解决方案

在使用 LLE 的过程中，你可能会遇到以下问题，这里有一些调试经验：

问题：运行非常慢

* 原因：LLE 需要计算所有点对之间的距离（构建邻域图）以及求解稀疏矩阵的特征值。在样本量（N）很大时，复杂度约为 $O(N \log N)$ 或 $O(N^2)$，取决于具体实现。

* 解决：如果数据量超过 5000-10000，标准的 LLE 会非常吃力。建议先随机采样一部分数据进行探索，或者使用 spectral_embedding 等更高效的近似算法。

问题：降维后的图看起来是破碎的

* 原因：n_neighbors 设置得太小了。

* 解决：尝试增加邻居数量。同时检查数据中是否存在异常值，异常值可能会破坏局部结构。

问题：所有的点都被挤在一起

* 原因：数据没有标准化，或者 n_neighbors 设置得太大，导致过度平滑。

* 解决：检查数据预处理步骤，适当减小邻居数。

总结

局部线性嵌入（LLE）是一种强大的非线性降维技术。它通过“局部线性”的巧妙假设，成功地解决了全局线性方法（如 PCA）无法处理的流形展开问题。

在这篇文章中，我们：

理解了 LLE 如何通过保留局部重构权重来映射数据。
掌握了 n_neighbors 这一核心参数对结果的影响。
使用 Python 和 Scikit-learn 实现了从数据生成到可视化的完整流程。
探讨了 Modified LLE 和数据预处理等进阶技巧。

下一步建议：

如果你在自己的数据集上尝试 LLE 效果不佳，不妨试试 t-SNE 或 UMAP。它们是近年来更流行的流形学习算法，特别是在可视化高维聚类方面表现更出色，尽管它们在保留全局距离结构上可能不如 LLE 严谨。

希望这篇文章能帮助你更好地理解和应用 LLE！

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客