Python实战：深入理解并实现主成分分析 (PCA) 降维算法

2026-02-04 12:53:13 0条评论 2次阅读 0人点赞

在数据科学和机器学习的实战项目中，我们经常会遇到所谓的“维数灾难”。当数据集的特征数量非常多时（例如几十个甚至上百个），不仅会导致模型训练变慢，还容易引发过拟合，使得模型性能下降。为了解决这一问题，降维技术应运而生，其中最经典且应用最广泛的就是主成分分析。

在这篇文章中，我们将带你深入探讨 PCA 的核心原理，并通过 Python 的 scikit-learn 库进行实战演练。你将学习到如何一步步实现 PCA，从数据预处理、标准化，到最终的模型应用与可视化。我们将以经典的乳腺癌数据集为例，展示如何将 30 个特征压缩为 2 个主成分，并保留数据中的关键信息。让我们开始这场数据降维的探索之旅吧！

1 准备工作：导入核心库
2 步骤 1：加载数据与初步探索
3 步骤 2：数据清洗与特征工程
4 步骤 3：分离特征与标签
5 步骤 4：数据标准化 (至关重要的一步)
6 步骤 5：应用 PCA 算法
7 步骤 6：解析方差贡献率
8 步骤 7：可视化分析——原始数据 vs PCA 降维数据
9 步骤 8：实战应用——在 PCA 数据上训练机器学习模型
10 进阶技巧：如何选择最佳的主成分数量？
11 总结与最佳实践

准备工作：导入核心库

首先，我们需要搭建 Python 环境。在数据处理和机器学习任务中，INLINECODE9a9d9f68 和 INLINECODEf8682897 是基础，用于数据清洗和操作；INLINECODE344603de 和 INLINECODEff816237 则能帮助我们直观地看到数据分布。当然，核心的主角是 scikit-learn，它提供了标准化的接口来实现 PCA。

# 导入必要的科学计算库
import numpy as np
import pandas as pd

# 导入可视化库
import matplotlib.pyplot as plt
import seaborn as sns

# 设置绘图风格，使图表更美观
sns.set(style="whitegrid")

# 从 scikit-learn 导入核心模块
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

步骤 1：加载数据与初步探索

为了演示 PCA 的效果，我们需要一个高维度的数据集。在这里，我们使用乳腺癌诊断数据集。这是一个非常经典的二分类问题，包含 569 个样本和 30 个特征（如细胞核的半径、纹理、周长等）。我们的目标是通过这些特征判断肿瘤是良性（B）还是恶性（M）。

你可以从 Kaggle 或 UCI 机器学习仓库下载该数据集（通常命名为 INLINECODE823f1cf4）。加载数据后，我们首先通过 INLINECODE5ff481e0 方法窥探一下数据的结构。

# 读取数据集
df = pd.read_csv(‘data.csv‘)

# 查看前 5 行数据，了解数据的基本结构
print("数据集的前 5 行：")
print(df.head())

# 查看数据集的形状
print(f"
数据集形状: {df.shape}")

步骤 2：数据清洗与特征工程

在现实世界中，原始数据往往是不完美的。我们需要进行一些清洗工作。

1. 处理缺失值与无用列：

在查看数据时，我们可能会发现包含 INLINECODE1c97d970 列（仅作标识用，对预测无帮助）以及 INLINECODEf5fc730d 列（通常是导出数据时产生的空列）。我们需要果断地将它们移除。

2. 标签编码：

diagnosis 列是我们的目标变量，目前的值是 ‘M‘ (Malignant) 和 ‘B‘ (Benign)。为了让计算机能更好地处理，我们通常将其转换为数字：1 代表恶性，0 代表良性。

# 删除无关列：‘id‘ 没有预测价值，‘Unnamed: 32‘ 是空列
df_cleaned = df.drop([‘id‘, ‘Unnamed: 32‘], axis=1)

# 将目标变量 ‘diagnosis‘ 映射为数值：M -> 1, B -> 0
df_cleaned[‘diagnosis‘] = df_cleaned[‘diagnosis‘].map({‘M‘: 1, ‘B‘: 0})

# 检查转换后的结果
print("清洗并转换后的目标变量分布：")
print(df_cleaned[‘diagnosis‘].value_counts())

步骤 3：分离特征与标签

接下来，我们将数据集分为特征矩阵 (X) 和目标向量。这是机器学习流程中的标准操作。

# X 包含所有的特征列（除了 diagnosis）
X = df_cleaned.drop(‘diagnosis‘, axis=1)

# y 是我们要预测的目标
y = df_cleaned[‘diagnosis‘]

print(f"特征矩阵形状: {X.shape}")
print(f"目标向量形状: {y.shape}")

步骤 4：数据标准化 (至关重要的一步)

为什么要标准化？ 这是我们在应用 PCA 时最容易忽略的一步。

PCA 算法通过寻找方差最大的方向来进行降维。如果你的特征处于不同的量纲（例如，“面积”特征是 1000 的量级，而“平滑度”特征是 0.1 的量级），PCA 会错误地认为数值大的特征方差大，从而赋予其过高的权重，这会导致结果失真。

因此，我们必须使用 StandardScaler 将所有特征转换为均值为 0，方差为 1 的分布。

# 初始化标准化器
scaler = StandardScaler()

# 在特征上拟合并转换
X_scaled = scaler.fit_transform(X)

# 查看转换后的前两行数据，验证均值接近0
print("标准化后的前两行数据：")
print(X_scaled[:2])

步骤 5：应用 PCA 算法

现在，让我们进入核心环节。我们将把原本的 30 个特征 降维至 2 个主成分。这意味着我们将把一个 30 维的空间压缩到一个 2 维的平面中，同时尽可能多地保留原始数据的信息。

# 初始化 PCA，指定我们要保留的主成分数量为 2
pca = PCA(n_components=2)

# 在标准化后的数据上拟合 PCA
X_pca = pca.fit_transform(X_scaled)

# 创建一个新的 DataFrame 来存储 PCA 结果，方便绘图
df_pca = pd.DataFrame(data=X_pca, columns=[‘Principal Component 1‘, ‘Principal Component 2‘])
df_pca[‘Diagnosis‘] = y

print("降维后的数据形状：", X_pca.shape)
print("前两行 PCA 数据：")
print(df_pca.head())

步骤 6：解析方差贡献率

我们牺牲了 28 个特征，那么保留下来的这两个主成分到底包含了多少信息呢？我们可以通过 explained_variance_ratio_ 来查看。

# 查看每个主成分解释的方差比例
explained_variance = pca.explained_variance_ratio_
print(f"第一主成分 (PC1) 解释方差占比: {explained_variance[0]:.2%}")
print(f"第二主成分 (PC2) 解释方差占比: {explained_variance[1]:.2%}")
print(f"两个主成分累计解释方差占比: {np.sum(explained_variance):.2%}")

解读：通常我们会发现，前两个主成分能够解释原数据约 60%-70% 的方差。这意味着，虽然我们丢弃了一半以上的特征，但仍然保留了数据中绝大部分的结构信息。

步骤 7：可视化分析——原始数据 vs PCA 降维数据

为了直观地感受 PCA 的威力，让我们通过可视化来对比一下。

1. 原始数据的两个特征分布

如果在原始的 30 维数据中，我们随意选取两个特征（比如第一个和第二个）绘制散点图，往往很难看到清晰的分类边界。

plt.figure(figsize=(10, 6))
# 绘制原始数据前两个特征的分布
sns.scatterplot(x=X_scaled[:, 0], y=X_scaled[:, 1], hue=y, palette=‘coolwarm‘, alpha=0.7)
plt.title(‘原始数据：前两个特征的分布‘)
plt.xlabel(‘Standardized Feature 1‘)
plt.ylabel(‘Standardized Feature 2‘)
plt.show()

2. PCA 降维后的数据分布

现在，让我们看看经过 PCA 提取后的两个主成分。

plt.figure(figsize=(10, 6))
# 绘制 PCA 降维后的数据
sns.scatterplot(x=‘Principal Component 1‘, y=‘Principal Component 2‘, 
                hue=‘Diagnosis‘, data=df_pca, palette=‘coolwarm‘, alpha=0.7)
plt.title(‘PCA 降维后：主成分分布 (PC1 vs PC2)‘)
plt.xlabel(f‘PC1 ({explained_variance[0]*100:.1f}% Variance)‘)
plt.ylabel(f‘PC2 ({explained_variance[1]*100:.1f}% Variance)‘)
plt.show()

观察：你会惊讶地发现，在 PCA 生成的二维图中，良性（蓝色）和恶性（红色）肿瘤被非常清晰地区分开了。这证明了 PCA 有效地提取了数据中最具区分度的特征组合。

步骤 8：实战应用——在 PCA 数据上训练机器学习模型

降维不仅仅是为了可视化，更重要的作用是加速模型训练并防止过拟合。让我们比较一下在全部 30 个特征和仅使用 2 个 PCA 特征上训练逻辑回归模型的效果。

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)
X_pca_train, X_pca_test, y_train, y_test = train_test_split(X_pca, y, test_size=0.2, random_state=42)

# 情况 A：使用原始数据 (30维)
log_reg_original = LogisticRegression(max_iter=10000)
log_reg_original.fit(X_train, y_train)

# 情况 B：使用 PCA 降维数据 (2维)
log_reg_pca = LogisticRegression(max_iter=10000)
log_reg_pca.fit(X_pca_train, y_train)

# 预测与评估
y_pred_orig = log_reg_original.predict(X_test)
y_pred_pca = log_reg_pca.predict(X_pca_test)

print("--- 原始数据 (30维) 分类报告 ---")
print(classification_report(y_test, y_pred_orig))

print("
--- PCA 数据 (2维) 分类报告 ---")
print(classification_report(y_test, y_pred_pca))

结果分析：你会看到，仅仅使用 2 个主成分，我们的模型准确率通常就能接近甚至达到使用 30 个原始特征的水平。这就是 PCA 的魅力所在——用极低的数据维度实现高效的模型性能。

进阶技巧：如何选择最佳的主成分数量？

在上面的例子中，我们人为地选择了 n_components=2，主要是为了可视化。但在实际工程中，我们通常希望保留 95% 或 99% 的原始方差。我们可以这样做：

# 初始化 PCA，不指定 n_components，保留所有成分
pca_full = PCA()
pca_full.fit(X_scaled)

# 计算累计方差贡献率
cumsum = np.cumsum(pca_full.explained_variance_ratio_)
d = np.argmax(cumsum >= 0.95) + 1  # 找到达到 95% 方差的最小索引

print(f"为了保留 95% 的方差，我们需要保留 {d} 个主成分")

# 绘制累计方差曲线
plt.figure(figsize=(8, 5))
plt.plot(cumsum, linewidth=3)
plt.axhline(y=0.95, color=‘r‘, linestyle=‘--‘)
plt.axvline(x=d, color=‘r‘, linestyle=‘--‘)
plt.xlabel(‘Dimensions (Number of Components)‘)
plt.ylabel(‘Explained Variance‘)
plt.title(‘确定最佳主成分数量‘)
plt.grid(True)
plt.show()

总结与最佳实践

在这篇文章中，我们完整地走了一遍 PCA 在 Python 中的实现流程。让我们回顾一下关键要点：

标准化至关重要：PCA 对变量的尺度非常敏感，永远记得在 PCA 之前使用 INLINECODE2d2cc896 或 INLINECODEb3aa1d04。
权衡方差与维度：主成分越少，信息损失越大。通过绘制累计方差曲线来找到最佳平衡点。
加速训练：对于拥有成千上万个特征的数据集，PCA 可以显著减少后续分类算法（如 SVM、逻辑回归）的运行时间。
可视化辅助：通过将高维数据投影到 2D/3D 空间，我们可以发现数据中隐藏的聚类结构和异常值。

你现在掌握了在 Python 中使用 scikit-learn 实现 PCA 的完整技能。下次当你面对复杂的高维数据集时，不妨试着用 PCA 来“瘦身”，看看能否挖掘出更有价值的信息。祝你在机器学习的探索之路上好运！

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客