深入理解 Sparse Categorical Crossentropy 与 Categorical Crossentropy：多分类损失函数的选择之道

2026-02-07 00:50:42 0条评论 3次阅读 0人点赞

在深度学习的实战旅程中，构建一个高性能的多分类模型总是充满挑战。无论你是在开发一个图像识别系统，还是在处理复杂的自然语言处理任务，选择正确的损失函数往往是模型能否成功收敛的关键因素。我们经常会面对这样一个经典的问题：在 Keras 或 TensorFlow 中，到底该使用 INLINECODEb5507891（分类交叉熵）还是 INLINECODE86078934（稀疏分类交叉熵）？

很多开发者，包括我自己，在刚开始时可能会感到困惑，因为从数学角度来看，它们计算损失的核心逻辑几乎是一样的。但实际上，它们在数据格式、内存管理以及计算效率上有着显著的差异。在这篇文章中，我们将深入探讨这两者的区别，并通过实际的代码示例和使用场景，帮助你彻底掌握它们的选择之道。

1 交叉熵损失的核心原理
2 什么是 Categorical Crossentropy (分类交叉熵)？
3 什么是 Sparse Categorical Crossentropy (稀疏分类交叉熵)？
4 深入对比与最佳实践
5 总结与选择指南

交叉熵损失的核心原理

在深入细节之前，让我们先快速回顾一下什么是交叉熵。简单来说，交叉熵用于衡量两个概率分布之间的“距离”。在分类任务中，它计算的是：

“模型预测的概率分布”与“真实标签的实际分布”之间的差异。

我们的目标是在训练过程中最小化这个差异。无论你选择哪种具体的交叉熵函数，这个核心目的都是不变的。差异主要在于我们如何向计算机表达这个“真实标签”。

什么是 Categorical Crossentropy (分类交叉熵)？

Categorical Crossentropy 是最标准的交叉熵实现形式。当你希望模型输出属于每一个类别的具体概率时，通常会用到它。

关键要求：One-Hot 编码 (独热编码)

这是理解 Categorical Crossentropy 的最重要的一点：它要求你的目标标签必须是 One-Hot 编码格式。

什么意思呢？假设我们有三个类别：狗、猫和兔子。

如果一张图片是 Cat：
在普通格式中，它可能是整数 1。
但在 One-Hot 格式中，它变成一个向量 [0, 1, 0]。

在这个向量中：

第 0 位（狗）= 0
第 1 位（猫）= 1
第 2 位（兔子）= 0

数学计算过程

让我们通过一个具体的例子来看看它是如何工作的。假设模型对一张图片的预测概率是 [0.2, 0.7, 0.1]，分别对应 [狗, 猫, 兔子]。

真实标签：[0, 1, 0] (Cat)。
预测概率：[0.2, 0.7, 0.1]。
公式：交叉熵会关注真实标签为 1 的那个位置，并取其预测概率的负对数。

Loss = -log(Predicted Probability of the True Class)

在我们的例子中：

Loss = -log(0.7) ≈ 0.3567

代码示例：标准的 Categorical Crossentropy

让我们看一段代码，了解如何在 Keras 中使用它。注意 to_categorical 的使用，这是关键步骤。

import numpy as np
import tensorflow as tf
from tensorflow.keras.utils import to_categorical
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense

# 1. 准备数据
# 假设我们有3个样本，属于3个类别 (0, 1, 2)
y_train = np.array([0, 1, 2]) 

# 【关键步骤】：对于 Categorical Crossentropy，必须进行 One-Hot 编码
# 将 [0, 1, 2] 转换为:
# [[1, 0, 0],
#  [0, 1, 0],
#  [0, 0, 1]]
y_train_onehot = to_categorical(y_train, num_classes=3)

print(f"原始标签: {y_train}")
print(f"One-Hot 标签:
{y_train_onehot}")

# 2. 构建简单的模型
model = Sequential([
    Dense(10, input_shape=(4,), activation=‘relu‘), # 假设输入特征为4
    Dense(3, activation=‘softmax‘) # 输出层，3个类别，使用softmax输出概率
])

# 3. 编译模型
# 这里使用 CategoricalCrossentropy
model.compile(
    optimizer=‘adam‘,
    loss=‘categorical_crossentropy‘, # 注意这里的名称
    metrics=[‘accuracy‘]
)

# 模拟输入数据进行训练
X_train = np.random.rand(3, 4)

# 4. 训练
# 注意这里传入的是 y_train_onehot，而不是 y_train
model.fit(X_train, y_train_onehot, epochs=5, verbose=0)
print("
模型训练完成。")

在这个例子中，你可以看到我们需要在数据输入模型之前，手动使用 to_categorical 将整数标签转换为向量。这种格式的优点在于它的“明确性”——它精确地告诉模型哪个类别是正确的，其他是错误的。

什么是 Sparse Categorical Crossentropy (稀疏分类交叉熵)？

现在，让我们来看看 Sparse Categorical Crossentropy。它在数学原理上与上面的版本完全一致，但在处理标签的方式上更加“懒惰”——或者说更加高效。

关键特性：支持整数标签

INLINECODE211660d7 意味着“稀疏”。在机器学习中，当我们只有一个位置是非零的（比如 One-Hot 向量中只有一个 INLINECODEb4bd7621），我们通常可以使用一个简单的整数来表示它，而不需要存储整个向量。

如果正确标签是 Cat（索引为 1）：
Sparse Categorical Crossentropy 直接接受整数 1。

它不需要你将标签转换为 [0, 1, 0]。它会在内部自动完成这个转换过程，然后应用同样的对数损失公式。

为什么需要它？

想象一下，如果你的分类任务涉及 10,000 个类别（例如，面对一个庞大的商品库或字典表）：

内存消耗：如果你使用 One-Hot 编码，每一个标签在内存中就是一个长度为 10,000 的数组，其中 9,999 个位置都是 0，只有 1 个位置是 1。这极大地浪费了 RAM。
计算资源：传输和处理这些巨大的零矩阵需要额外的计算带宽。

使用 Sparse 版本，你只需要传递一个简单的整数（例如 9999），不仅节省内存，还能加快数据加载和预处理的速度。

代码示例：高效的 Sparse Categorical Crossentropy

让我们用同样的例子，但这次使用 Sparse 版本。注意数据准备阶段的区别。

import numpy as np
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense

# 1. 准备数据
# 原始的整数标签：[0, 1, 2]
y_train = np.array([0, 1, 2]) 

# 【关键区别】：不需要 to_categorical！
# 我们直接使用原始的 y_train

# 2. 构建模型（结构完全相同）
model_sparse = Sequential([
    Dense(10, input_shape=(4,), activation=‘relu‘),
    Dense(3, activation=‘softmax‘) 
])

# 3. 编译模型
# 这里使用 SparseCategoricalCrossentropy
model_sparse.compile(
    optimizer=‘adam‘,
    loss=‘sparse_categorical_crossentropy‘, # 注意这里的名称是 sparse
    metrics=[‘accuracy‘]
)

# 模拟输入数据
X_train = np.random.rand(3, 4)

# 4. 训练
# 这里直接传入整数标签 y_train
model_sparse.fit(X_train, y_train, epochs=5, verbose=0)
print("使用 Sparse Categorical Crossentropy 训练完成。")

# 验证输出形状
predictions = model_sparse.predict(X_train[:1])
print(f"
预测概率分布: {predictions}") # 输出仍然是概率分布 [p_dog, p_cat, p_rabbit]

在这段代码中，我们省去了 INLINECODE0ff313e3 这一步。这不仅让代码更简洁，也减少了数据预处理的负担。特别是在处理从 INLINECODE146e4948 加载的图像数据时，生成器通常直接返回整数标签，此时使用 Sparse 损失函数是最顺手的。

深入对比与最佳实践

现在我们已经了解了它们的基本用法，让我们通过几个维度来深入对比，并探讨在什么情况下你应该选择哪一种。

1. 标签表示与预处理

Categorical Crossentropy:

* 要求：输入形状必须为 (batch_size, num_classes)。

* 预处理：必须使用 INLINECODEf95d81a6 或 INLINECODEcb979829 进行转换。

* 适用性：如果你的数据集已经提供了 One-Hot 标签（例如某些特定的 CSV 文件格式），或者你需要使用自定义的平滑标签，那么这个版本是必须的。

Sparse Categorical Crossentropy:

* 要求：输入形状为 (batch_size,)，即一维整数数组。

* 预处理：不需要任何特殊的形状转换，只需要确保标签从 0 开始编号即可。

* 适用性：绝大多数标准的分类任务，特别是当类别数量很大时，是首选。

2. 性能与内存优化

让我们深入一点，谈谈性能。

内存效率：如前所述，Sparse 版本在处理多类别任务时具有巨大的优势。如果你在做 自然语言处理 (NLP)，比如预测下一个汉字（可能有几千个常用字），或者在做 推荐系统（百万级商品 ID），请务必使用 Sparse 版本。否则，你的显存可能仅仅用来存储这些全零的标签向量就耗尽了。

计算速度：虽然现代框架（如 TensorFlow 和 PyTorch）对两者都做了高度优化，但在数据加载（Data Loader/Pipeline）阶段，Sparse 版本涉及的数据拷贝更少，因此通常会有微小的速度优势。

3. 常见错误与调试技巧

错误 1：维度不匹配

当你使用 INLINECODEfcbb9c45 但却传入了整数标签（例如 shape 为 INLINECODEf32e3c31 的数组）时，你会遇到一个常见的报错：

ValueError: Shapes (None, 1) and (None, 3) are incompatible

或者关于 logits 和 labels 维度不匹配的错误。解决方法：检查你的标签是否做了 One-Hot 编码，或者直接将损失函数改为 sparse_categorical_crossentropy。

错误 2：标签索引越界

使用 INLINECODEd6c61134 时，如果你的标签是 INLINECODE87c42a27，但你的输出层只有 3 个神经元（类别索引为 0, 1, 2），程序会报错。

解决方法：确保你的标签从 0 开始连续编号。如果你的类别标签是 INLINECODE393ad6cf，你需要将它们减去 1，映射为 INLINECODE414eebb0，或者确保模型的输出层有足够的神经元（INLINECODEf5c2e6cb 应该等于 INLINECODE0b174220）。

4. 代码实战：完整的数据流对比

为了让你更有体感，让我们写一个更完整的对比案例，模拟真实世界的 MNIST 手写数字分类场景（10个类别）。

import numpy as np
import tensorflow as tf
from sklearn.datasets import load_digits
from tensorflow.keras.utils import to_categorical

# 加载简单的数字数据集 (10个类别, 0-9)
data = load_digits()
X, y_int = data.data, data.target

# 场景 A: 使用 Categorical Crossentropy
# -------------------------------------------------
print("--- 场景 A: Categorical Crossentropy ---")
# 步骤 1: 数据必须 One-Hot 编码
y_onehot = to_categorical(y_int)
print(f"One-Hot 标签形状: {y_onehot.shape}") # (1797, 10)

model_a = tf.keras.Sequential([
    tf.keras.layers.Dense(64, activation=‘relu‘, input_shape=(64,)),
    tf.keras.layers.Dense(10, activation=‘softmax‘)
])

model_a.compile(optimizer=‘adam‘, loss=‘categorical_crossentropy‘)
# hist_a = model_a.fit(X, y_onehot, epochs=1) # 训练代码
print("模型 A 配置完成，输入形状需匹配。")

# 场景 B: 使用 Sparse Categorical Crossentropy
# -------------------------------------------------
print("
--- 场景 B: Sparse Categorical Crossentropy ---")
# 步骤 1: 不需要任何转换，直接使用 y_int
print(f"整数标签形状: {y_int.shape}") # (1797,)

model_b = tf.keras.Sequential([
    tf.keras.layers.Dense(64, activation=‘relu‘, input_shape=(64,)),
    tf.keras.layers.Dense(10, activation=‘softmax‘)
])

model_b.compile(optimizer=‘adam‘, loss=‘sparse_categorical_crossentropy‘)
# hist_b = model_b.fit(X, y_int, epochs=1) # 训练代码
print("模型 B 配置完成，输入数据更轻量。")

总结与选择指南

我们已经走了很长的路，从基本概念到数学公式，再到具体的代码实现和性能分析。那么，作为开发者，你在面对实际项目时应该如何做决定呢？

什么时候使用 Categorical Crossentropy？

你的数据已经是 One-Hot 格式：如果你从数据库中读取的数据已经是稀疏矩阵或独热编码，使用标准版本可以避免额外的转换（尽管通常转回整数再用 Sparse 也可能更快，视具体库而定）。
你需要精细控制目标值：在某些高级任务中，比如使用 Label Smoothing（标签平滑） 或者进行软标签训练（Soft Targets，类似于知识蒸馏 Distillation），你需要目标是一个概率分布（例如 INLINECODE160f03a4），而不是硬性的 0 或 1。这时必须使用 INLINECODE80fd3e58。

什么时候使用 Sparse Categorical Crossentropy？

绝大多数多分类任务：这是默认的首选。
类别数量巨大：当你有 100+ 甚至更多的类别时，为了节省内存和提高速度，绝对应该使用 Sparse 版本。
标签是整数：当你使用 INLINECODEe3e5df80 生成器，或者 INLINECODEc0bdbf66 读取的单列标签数据时，Sparse 版本是最方便的。

核心要点

数学上：两者计算结果完全一致。INLINECODEd68ff593 只是框架帮你做了一个 INLINECODE9c7d0a9e 的隐式转换。
代码上：Sparse 版本减少了数据预处理的样板代码。
性能上：Sparse 版本在处理大量类别时更节省内存。

在接下来的项目中，当你构建多分类模型时，不妨先检查一下你的 INLINECODEfd46e98b 的形状。如果是一维的整数数组，放心地使用 INLINECODE17269565 吧；如果需要处理软标签或特殊概率分布，再切换到 categorical_crossentropy。掌握这两者的细微差别，将是你成为深度学习专家的重要一步。

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客