深入理解 PyTorch 中的 backward() 函数：原理、实战与进阶指南

2026-02-08 09:14:16 0条评论 2次阅读 0人点赞

在这篇文章中，我们将深入探讨 PyTorch 中最核心但也最容易被初学者忽视的机制之一——INLINECODE1c0d85a0 函数。无论你刚刚开始接触深度学习，还是已经在构建复杂的神经网络模型，理解反向传播的底层工作原理以及如何正确使用 INLINECODEb8a4a605 都至关重要。我们将一起探索它是如何自动计算梯度的，它在实际代码中是如何运作的，以及我们在开发过程中可能遇到的常见陷阱和最佳实践。

为什么 backward() 至关重要？

在深度学习中，训练模型的核心在于“从错误中学习”。这个过程通过反向传播算法来实现：计算损失函数相对于模型参数的梯度，然后利用这些梯度来更新参数。PyTorch 为我们搭建了一个强大的自动微分系统，而 backward() 正是触发这个系统的扳机。

如果不调用这个方法，或者调用方式不正确，模型就无法学习，权重也就不会更新。在接下来的内容中，我们将通过具体的代码示例，逐步拆解这一过程。

基础概念：计算图与梯度

在开始写代码之前，我们需要理解两个核心概念：

计算图：PyTorch 通过动态计算图来记录我们的操作。当我们对 Tensor 进行运算（如加法、乘法）时，PyTorch 会在后台构建一个有向无环图（DAG）。图中的节点是 Tensor，边是生成新 Tensor 的函数。
叶子节点与梯度：通常，我们设置的模型参数（如权重和偏置）是图中的“叶子节点”。当我们调用 INLINECODEc9944c89 时，PyTorch 会计算损失函数对这些叶子节点的导数（即梯度），并将它们存储在 INLINECODE3059c73a 属性中。

> 注意：只有将 INLINECODE416110e0 的张量，PyTorch 才会为其计算梯度。默认情况下，新建的张量这个属性是 INLINECODEe5471a0b。

场景 1：未调用 backward() 的后果

让我们从一个最简单的实验开始，看看如果不调用 backward()，到底会发生什么。

在这个例子中，我们定义了一个简单的函数 $x = A^3$。我们创建了一个需要梯度的张量 $A$，并进行运算。但是，我们故意不调用 .backward()，而是直接尝试查看梯度。

# 导入 PyTorch 库
import torch

# 定义一个标量张量，并设置 requires_grad=True
# 这告诉 PyTorch：“我们需要在这个张量上计算梯度”
A = torch.tensor(5., requires_grad=True)
print(f"初始张量 A: {A}")

# 定义一个函数关系: x = A^3
# 此时 PyTorch 已经构建了计算图，x 保留了计算历史
x = A**3 
print(f"计算后的结果 x: {x}")

# 此时我们尝试打印 A 的梯度
# 在没有调用 backward 之前，梯度是未知的
print(f"在 backward 之前，A.grad 的值: {A.grad}")

输出结果：

初始张量 A: tensor(5., requires_grad=True)
计算后的结果 x: tensor(125., grad_fn=)
在 backward 之前，A.grad 的值: None

分析：

你可以看到，即使 $x$ 是由 $A$ 计算得来的（注意输出中 INLINECODE81375437，这表明 $x$ 知道它是怎么来的），但此时 $A$ 的梯度依然是 INLINECODE103d2dbe。这是因为计算梯度的过程不会自动发生。这是一个懒加载机制——只有当你明确要求计算时（通过 backward()），PyTorch 才会去进行繁重的数学运算。这对于节省资源非常重要，因为你可能并不总是需要梯度（比如在模型推理阶段）。

场景 2：正确触发反向传播

现在，让我们加入 backward() 这一步，看看奇迹是如何发生的。

import torch

# 1. 定义张量
A = torch.tensor(5., requires_grad=True)
print(f"Tensor A: {A}")

# 2. 定义前向传播函数 x = A^3
x = A**3
print(f"运算结果 x: {x}")

# 3. 关键步骤：调用反向传播
# PyTorch 将计算 x 对 A 的导数，即 dx/dA
x.backward()

# 4. 查看计算出的梯度
print(f"计算后的梯度 A.grad: {A.grad}")

输出结果：

Tensor A: tensor(5., requires_grad=True)
运算结果 x: tensor(125., grad_fn=)
计算后的梯度 A.grad: tensor(75.)

深入理解原理：

为什么梯度是 75.？让我们用微积分验证一下。我们的函数是 $x = A^3$。

根据链式法则，$x$ 对 $A$ 的导数是：

$$ \frac{dx}{dA} = \frac{d(A^3)}{dA} = 3 \times A^2 $$

我们将 $A=5$ 代入：

$$ 3 \times 5^2 = 3 \times 25 = 75 $$

完美匹配！PyTorch 自动为我们完成了这个微分过程。

场景 3：混合使用 requires_grad=True 和 False

在实际开发中，并不是所有的数据都需要梯度。例如，模型的输入数据通常不需要梯度，只有模型的权重参数才需要。让我们看看当混合使用这两种张量时会发生什么。

import torch

# 定义两个张量
# A 是需要梯度的（通常代表权重）
A = torch.tensor(2., requires_grad=True)
print(f"张量 A (requires_grad=True): {A}")

# B 不需要梯度（通常代表输入数据）
B = torch.tensor(5., requires_grad=False)
print(f"张量 B (requires_grad=False): {B}")

# 定义运算: x = A * B
x = A * B
print(f"运算结果 x: {x}")

# 执行反向传播
x.backward()

# 检查梯度
print(f"A 的梯度: {A.grad}")
print(f"B 的梯度: {B.grad}")

输出结果：

张量 A (requires_grad=True): tensor(2., requires_grad=True)
张量 B (requires_grad=False): tensor(5.)
运算结果 x: tensor(10., grad_fn=)
A 的梯度: tensor(5.)
B 的梯度: None

技术解析：

这里发生的事情非常有趣：

$x = A \times B$。
我们对 $A$ 求偏导：$\frac{\partial x}{\partial A} = B = 5$。所以 A.grad 是 5。
我们虽然可以对 $B$ 求偏导（结果是 $A=2$），但因为我们在创建 $B$ 时明确指定了 requires_grad=False，PyTorch 就会忽略对 $B$ 的梯度计算。

这是PyTorch的一个优化特性：不计算不需要的梯度可以节省大量的内存和计算时间。在处理大规模数据集（如 ImageNet）时，这一点至关重要。

进阶场景：处理向量与 Jacobian 矩阵

前面的例子都是标量对标量的求导。但在实际训练中，我们通常处理的是一个批量的数据，这意味着我们的损失函数往往是一个向量。

如果我们直接对一个向量调用 backward()，PyTorch 会报错。因为从数学上讲，向量对向量的导数是一个雅可比矩阵，而反向传播期望的是一个标量损失（通常是总误差）来开始反向传播。

为了解决这个问题，INLINECODE3c09f1d6 允许我们传入一个 INLINECODEca84e690 参数（通常称为“梯度权值”或“外部梯度”）。

让我们看看如果不传参数会发生什么，以及如何修正它。

import torch

# 创建一个简单的向量
v = torch.tensor([1., 2., 3.], requires_grad=True)

# 进行一个简单的运算，结果仍然是向量
y = v * 2

try:
    # 尝试直接对向量 y 进行反向传播
    y.backward()
except RuntimeError as e:
    print(f"错误捕获: {e}")

输出结果：

错误捕获: grad can be implicitly created only for scalar outputs

正确的做法：

我们需要先将向量降维成标量（例如通过求和），或者传入一个与向量形状相同的权重向量。在实际的神经网络训练中，我们的 loss 通常是所有样本误差的均值，本身就是一个标量，所以很少需要手动传参。但在某些高级数学运算中，你会用到这个功能。

import torch

v = torch.tensor([1., 2., 3.], requires_grad=True)
y = v * 2

# 方法 1：将结果求和，变成标量再反向传播
# 这相当于假设每个元素的权重都是 1
loss = y.sum()
loss.backward()
print(f"Sum backward 结果 v.grad: {v.grad}")

# 清空梯度以便进行下一次实验
v.grad.zero_()

# 方法 2：传入梯度向量 (gradient argument)
# 如果我们想把向量 y 看作某种中间结果，并且已知上游传下来的梯度是 [1, 1, 1]
# 我们可以显式传入这个向量
print("
使用 gradient 参数进行 backward:")
y.backward(gradient=torch.tensor([1., 1., 1.]))
print(f"传入 [1, 1, 1] 后的 v.grad: {v.grad}")

输出结果：

Sum backward 结果 v.grad: tensor([2., 2., 2.])

使用 gradient 参数进行 backward:
传入 [1, 1, 1] 后的 v.grad: tensor([2., 2., 2.])

原理解析：

在数学上，这对应于向量-雅可比积（Vector-Jacobian Product）。当你调用 INLINECODE03dbc8e8 时，PyTorch 实际上计算的是 $v^T \cdot Jy$。这是自动微分引擎的标准实现方式，不仅高效，而且避免了显式构造巨大的雅可比矩阵。

实战中的陷阱：梯度累加

这是初学者最容易踩的坑之一：PyTorch 的梯度默认是累加的，而不是覆盖的。

让我们看看如果不手动清空梯度会发生什么。

import torch

w = torch.tensor(1.0, requires_grad=True)

# 第一次循环
for i in range(3):
    # 简单的损失函数: loss = w^2
    loss = w ** 2
    
    print(f"
第 {i+1} 次迭代前, w.grad = {w.grad}")
    
    loss.backward()
    
    print(f"第 {i+1} 次迭代后, w.grad = {w.grad}")
    
    # 注意：这里我们没有更新 w，也没有清空梯度，只是为了演示累加效果

输出结果：

第 1 次迭代前, w.grad = None
第 1 次迭代后, w.grad = tensor(2.)

第 2 次迭代前, w.grad = tensor(2.)
第 2 次迭代后, w.grad = tensor(4.)

第 3 次迭代前, w.grad = tensor(4.)
第 3 次迭代后, w.grad = tensor(6.)

发生了什么？

第一次 backward() 后，梯度计算为 2（因为 $\frac{d(w^2)}{dw} = 2w = 2 \times 1$）。
第二次 backward() 时，PyTorch 将新计算的梯度（2）加到了上一次的梯度（2）上，结果变成了 4。
第三次变成了 6。

这对你的训练意味着什么？

在标准的训练循环中，如果你忘记清空梯度，你模型参数的梯度会越来越大，导致权重更新方向完全错误，模型训练将无法收敛。

最佳实践：

在每个训练步骤开始时，务必使用 INLINECODEe2248d63 或者手动调用 INLINECODE749683f2 来将梯度归零。

最佳实践与性能优化建议

在了解了 backward() 的基础和陷阱后，让我们总结一些在实战中能让你代码更高效、更稳健的建议。

训练与推理模式的切换：

在进行推理（预测）时，使用 torch.no_grad() 上下文管理器。这会暂时禁用梯度计算。这不仅减少了内存消耗（因为不需要存储中间状态），还能略微加速计算。

    with torch.no_grad():
        predictions = model(input_data)

梯度裁剪：

在训练非常深的网络（如 RNN 或 Transformer）时，梯度可能会变得非常大（梯度爆炸），导致数值不稳定。我们可以使用 torch.nn.utils.clip_grad_norm_ 来限制梯度的范数。

    torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm=1.0)

检查叶子节点：

当你发现某个参数的梯度一直是 None 时，请检查：

* 是否设置了 requires_grad=True？

* 该张量是不是通过计算得出的（非叶子节点）？虽然非叶子节点也可以有梯度，但 PyTorch 默认为了节省内存，只保留叶子节点的 INLINECODE54563a2b。如果需要保留中间变量的梯度，可以使用 INLINECODE0721132c。

总结

在这篇文章中，我们深入剖析了 PyTorch 中不可或缺的 backward() 函数。我们从最基础的概念出发，了解到它是连接“前向计算”与“参数更新”的桥梁。通过几个实际的代码示例，我们看到了：

如果不调用它，梯度将无法计算。
requires_grad 属性决定了哪些张量参与微分计算。
向量反向传播需要特殊处理（通常是隐式的标量 Loss 或显式的 gradient 参数）。
梯度是累加的，必须在每个迭代步清零，否则会导致训练错误。

掌握 INLINECODE86609be3 不仅仅是为了让代码跑通，更是为了让你在调试模型时，能够清晰地理解数据在计算图中是如何流动的。希望这些知识能帮助你构建更强大、更稳定的深度学习模型。下次当你编写训练循环时，不妨多留意一下那个默默工作的 INLINECODE76cc7f35，它是 PyTorch 魔法的核心所在。

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客

深入理解 PyTorch 中的 backward() 函数：原理、实战与进阶指南

为什么 backward() 至关重要？

基础概念：计算图与梯度

场景 1：未调用 backward() 的后果

场景 2：正确触发反向传播

场景 3：混合使用 requires_grad=True 和 False

进阶场景：处理向量与 Jacobian 矩阵

实战中的陷阱：梯度累加

最佳实践与性能优化建议

总结

相关文章美国1G带宽/1T流量高速vps $17.99/年