深度学习实战：使用 TensorFlow 构建高效的 Softmax 回归模型

2026-02-07 20:31:25 0条评论 7次阅读 0人点赞

在这篇文章中，我们将深入探讨 Softmax 回归的核心原理，并学习如何使用 TensorFlow 库在 Python 中从零开始实现它。无论你是刚入门机器学习的新手，还是希望巩固理论基础的开发者，通过这篇教程，你将不仅理解多分类问题的数学本质，还能掌握处理真实数据集（如 MNIST）的实用技能。

为什么我们需要 Softmax 回归？

在机器学习的实际应用中，我们经常遇到的问题不仅仅是简单的“是”或“否”的二分类。Softmax 回归（也常被称为多项逻辑回归）是逻辑回归的一种自然推广形式，专门用于解决目标类别超过两个的多分类问题。

为了让你更好地理解，让我们回顾一下二分类逻辑回归。在那个场景下，我们的标签是二元的，对于第 i 个观测值，标签 $y_i$ 只有两种可能：

$$y_{i} \in \{ 0, 1 \}$$

这在处理诸如“这封邮件是不是垃圾邮件？”这类问题时非常有效。但是，设想一个更复杂的场景：我们需要构建一个手写数字识别系统。图像中的数字可能是 0 到 9 中的任何一个。这时，可能的标签变为：

$$y_{i} \in \{ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9 \}$$

面对这种情况，二分类模型就显得力不从心了。我们需要一个能够输出多个概率并处理多个类别的模型——这就是 Softmax 回归大显身手的地方。

深入理解 Softmax 层

在模型训练的早期阶段，我们的模型通常会输出原始的分数值，这些值通常被称为 Logits。如果我们直接使用这些分数来计算误差，会带来数学上的困难。特别是在使用梯度下降算法优化模型时，我们需要对这些误差进行微分（求导），而未经处理的分数值很难用来构建一个凸的、易于优化的损失函数。

因此，我们需要一个数学函数，它能完成两个任务：

将差异巨大的分数值转化为归一化的概率值（介于 0 和 1 之间）。
保证所有类别的概率之和等于 1。

这正是 Softmax 函数 的作用。对于输入向量 y，softmax 函数 S(y) 的数学定义如下：

$$S\left ( yi \right )=\frac{e^{yi}}{\sum{j=0}^{n-1}e^{yj}}$$

> 注意：在分母中，我们需要对所有类别的指数求和。这一点至关重要，因为它强制模型在增加某个类别概率的同时，必须降低其他类别的概率。

你可能会问，这与二分类中的 Sigmoid 函数有什么关系？其实，Softmax 函数就是 Sigmoid 函数在多分类场景下的推广形式。现在，这个 softmax 函数计算了第 i 个训练样本在给定 logits 向量 $Z_i$ 的情况下，属于类别 j 的概率：

$$P\left ( y=j| Zi \right )=\left [S\left ( Zi \right )\right ]j=\frac{e^{Z{ij}}}{\sum{p=0}^{k}e^{Z{ip}}}$$

用更简洁的向量形式表示，我们可以简单地写成：

$$P\left ( y=j| Zi \right )=\left [S\left ( Zi \right )\right ]_j$$

为了方便后续的数学推导，让我们用 $S_i$ 来表示第 i 个观测值的 softmax 概率向量。

定义代价函数：交叉熵

有了概率输出，我们需要一种方法来衡量模型的预测有多准确。我们定义一个代价函数，用来比较 softmax 输出的概率向量与真实标签之间的“距离”。

在多分类任务中，真实标签通常被处理成 One-Hot（独热编码） 向量。例如，如果数字是“3”，那么标签向量就是 [0, 0, 0, 1, 0, 0, 0, 0, 0, 0]。

我们使用 交叉熵 作为我们的距离计算函数。交叉熵在信息论中有着深厚的根基，它能有效地惩罚那些置信度高但预测错误的结论。对于第 i 个观测值，我们定义交叉熵 $D(Si, Ti)$，其中 $Si$ 是 softmax 概率向量，$Ti$ 是独热目标向量：

$$D\left ( Si, Ti \right )=-\sum{j=1}^{k} T{ij}\log S_{ij}$$

> 直观理解：由于 $T_i$ 是独热向量，求和符号实际上只保留了真实类别对应的项。这意味着，我们只关心模型对正确类别的预测概率。如果模型对正确类别的预测概率很高（接近 1），损失就会很低；反之，如果预测概率很低，损失就会呈指数级增长。

整个训练集的平均代价函数 $J$ 可以定义为所有样本交叉熵的平均值：

$$J\left ( W,b \right )=\frac{1}{n}\sum{i=1}^{n}D\left ( Si, T_i \right )$$

实战：使用 TensorFlow 实现 Softmax 回归

理论部分已经足够了，现在让我们卷起袖子，在 MNIST 手写数字数据集 上使用 TensorFlow 实现它。这是一个经典的计算机视觉入门任务，非常适合用来演示 Softmax 回归的威力。

#### 第一步：环境准备与导入依赖

首先，我们需要确保导入了所有必要的库。在这里，我们主要使用 TensorFlow 进行计算，NumPy 处理数组，Matplotlib 进行可视化。

# 导入 TensorFlow
import tensorflow as tf
# 为了兼容某些旧版 API 或特定写法，有时会用到 compat.v1，
# 但在本教程中，我们将主要使用现代的 Keras 接口和 eager execution。
import tensorflow.compat.v1 as tf1

# 辅助库
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# 设置随机种子以保证结果可复现
np.random.seed(42)

#### 第二步：加载和探索数据集

TensorFlow 让我们能够极其方便地下载和读取 MNIST 数据。请看下面的代码。它会自动下载 MNIST_data 并将其分配给训练集和验证集。

# 加载 MNIST 数据集
# X_train: 训练图像数据, Y_train: 训练标签
# X_val: 验证图像数据, Y_val: 验证标签
(X_train, Y_train), (X_val, Y_val) = tf.keras.datasets.mnist.load_data()

print(f"训练集特征矩阵的形状: {X_train.shape}")
print(f"训练集目标向量的形状: {Y_train.shape}")

输出：

训练集特征矩阵的形状: (60000, 28, 28)
训练集目标向量的形状: (60000,)

这里我们可以看到，数据集包含了 60,000 个训练样本。每个图像是一个 28×28 的灰度矩阵。

让我们可视化一下其中的一些图像，以便直观地了解我们要处理的数据：

# 可视化数据：绘制 10x10 的图像网格
fig, ax = plt.subplots(10, 10, figsize=(10, 10))
fig.subplots_adjust(hspace=0.1, wspace=0.1)

for i in range(10):
    for j in range(10):
        # 随机选择一个索引
        k = np.random.randint(0, X_train.shape[0])
        # 显示图像，使用灰度色图
        ax[i][j].imshow(X_train[k].reshape(28, 28), cmap=‘gray‘, aspect=‘auto‘)
        # 关闭坐标轴以获得更清晰的视图
        ax[i][j].axis(‘off‘)
        # 可选：在标题中显示真实标签
        ax[i][j].set_title(Y_train[k], fontsize=8)

plt.show()

通过上面的代码，你应该能看到一张包含了各种手写数字的大图。了解数据的外观对于调试模型非常有帮助。

#### 第三步：数据预处理与超参数设置

在将数据喂给模型之前，进行预处理是至关重要的一步。这不仅能加速模型收敛，还能提高准确率。

归一化：我们将像素值从 0-255 缩放到 0-1。这有助于梯度下降算法更稳定地工作。
展平：Softmax 回归接收的是向量输入，而不是矩阵。我们需要将 28×28 的图像展平为长度为 784 的向量。
独热编码：虽然我们可以使用稀疏交叉熵损失来直接处理整数标签，但为了理解 Softmax 的原理，我们有时会手动将标签转换为独热编码格式（0-1 向量）。不过，为了利用 TensorFlow 的高效实现，我们在损失函数计算步骤中通常直接使用整数标签，依靠框架内部处理。

让我们定义一些超参数并处理数据：

# 定义超参数
num_features = 784  # 28 * 28
num_classes = 10     # 数字 0-9
learning_rate = 0.01
training_epochs = 20
batch_size = 100

# 数据预处理
# 1. 归一化像素值到 [0, 1]
X_train_flatten = X_train.reshape(X_train.shape[0], num_features).astype(‘float32‘) / 255
X_val_flatten = X_val.reshape(X_val.shape[0], num_features).astype(‘float32‘) / 255

print(f"处理后的训练数据形状: {X_train_flatten.shape}")

# 2. 将目标标签转换为 float32 (某些旧版 TF 操作需要，新版通常自动处理)
Y_train_int = Y_train.astype(‘int32‘)
Y_val_int = Y_val.astype(‘int32‘)

#### 第四步：构建 Softmax 回归模型

在 TensorFlow 中，我们可以使用 Keras 的 Sequential 模型来快速构建一个线性层。Softmax 回归本质上就是一个不带隐藏层的全连接神经网络，输出层使用 Softmax 激活函数。

# 使用 Keras Sequential API 构建模型
model = tf.keras.models.Sequential([
    # 全连接层：输入维度784，输出维度10
    # 这里没有显式写 activation=‘softmax‘，因为我们将直接在损失函数中应用 logits
    tf.keras.layers.Dense(num_classes, input_shape=(num_features,), name=‘softmax_layer‘)
])

# 定义优化器和损失函数
# 我们使用 Adam 优化器，它通常比纯 SGD 收敛更快
optimizer = tf.keras.optimizers.Adam(learning_rate=learning_rate)

# 我们使用 from_logits=True 告诉损失函数，我们的模型输出的是原始 logits
# 这样做在数值上更稳定
loss_fn = tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True)

# 编译模型
model.compile(optimizer=optimizer, 
              loss=loss_fn, 
              metrics=[‘accuracy‘])

> 开发经验分享：你可能会注意到我们在模型定义中没有直接加 Softmax 层，而是设置 from_logits=True。这是一个最佳实践。在数学上，Softmax 和交叉熵通常是结合在一起的。如果在计算损失时直接对 logits 进行操作，可以避免当数值非常大或非常小时，指数运算可能导致的数值溢出问题，从而提高计算的稳定性。

#### 第五步：训练模型

现在，我们准备开始训练模型。我们将使用 .fit() 方法，并传入验证集来监控模型在未见过的数据上的表现。

# 开始训练
print("开始训练 Softmax 回归模型...")
history = model.fit(X_train_flatten, Y_train_int, 
                    batch_size=batch_size, 
                    epochs=training_epochs, 
                    verbose=1, 
                    validation_data=(X_val_flatten, Y_val_int))

print("训练完成！")

#### 第六步：评估模型与预测

训练完成后，让我们看看模型在验证集上的表现如何。同时，我们也来演示如何进行单张图片的预测。

# 1. 评估整体准确率
val_loss, val_acc = model.evaluate(X_val_flatten, Y_val_int, verbose=0)
print(f"
验证集上的准确率: {val_acc * 100:.2f}%")

# 2. 进行单个预测
# 选取验证集中的第 100 张图片
sample_image = X_val_flatten[100]
true_label = Y_val_int[100]

# 模型输出的是 logits，我们需要加上 softmax 层来获取概率
# 或者直接使用 predict 方法
predictions = model.predict(sample_image.reshape(1, 784))

# 由于模型输出的是 logits，我们需要手动应用 softmax 来获得概率
probabilities = tf.nn.softmax(predictions[0]).numpy()
predicted_label = np.argmax(probabilities)

print(f"
真实标签: {true_label}")
print(f"预测标签: {predicted_label}")
print(f"预测概率分布: {probabilities}")

# 可视化这张图片
plt.imshow(sample_image.reshape(28, 28), cmap=‘gray‘)
plt.title(f"Pred: {predicted_label}, True: {true_label}")
plt.axis(‘off‘)
plt.show()

常见问题与性能优化建议

在实现 Softmax 回归时，你可能会遇到以下挑战，这里有一些针对性的解决方案：

数值不稳定：在实现 Softmax 函数时，如果 $Z_{ij}$ 的值很大（例如 1000），$e^{1000}$ 会导致溢出。

* 解决方法：在计算指数前，从每个 logit 中减去最大值：$Z{ij} – \max(Z)$。这在数学上是等价的，但在数值上安全得多。这也是为什么我们推荐使用 TensorFlow 内置的 INLINECODEef8fffcd 接口的原因之一。

数据未归一化：如果你直接输入 0-255 的像素值，模型可能会很难收敛。

* 解决方法：始终将图像数据除以 255 进行归一化，使其落在 [0, 1] 区间内。

过拟合：虽然 Softmax 回归是一个线性模型，相对于神经网络不太容易过拟合，但在特征维度极高且样本较少时仍有可能。

* 解决方法：可以尝试在损失函数中加入 L2 正则化（Weight Decay）。在 TensorFlow 中，可以通过 kernel_regularizer 参数实现：

      tf.keras.layers.Dense(num_classes, 
                            kernel_regularizer=tf.keras.regularizers.l2(0.01))

总结与后续步骤

通过这篇文章，我们一起完成了从理论推导到代码实现的完整过程。我们了解到 Softmax 回归是处理多分类问题的基石，它通过将 Logits 转化为概率分布，使得我们能够有效地训练分类器。

虽然 Softmax 回归在 MNIST 上能达到约 92% 左右的准确率，这是一个不错的基础，但它毕竟是线性模型，无法捕捉图像中的复杂结构（如旋转、笔画连接等）。

下一步建议：

尝试多层感知机 (MLP)：在输入层和输出层之间加入隐藏层（例如使用 ReLU 激活函数），看看准确率能否提升到 97% 以上。
引入卷积神经网络 (CNN)：这是图像处理的标准配置，它能轻松将准确率提升至 99% 以上。

希望这篇教程能帮助你在深度学习的道路上迈出坚实的一步。继续加油，去构建属于你自己的智能模型吧！

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客