深入理解偏导数：从概念到实战的多变量微积分指南

2026-02-01 20:17:26 0条评论 1次阅读 0人点赞

当我们开始涉足机器学习、3D图形学或物理模拟等领域时，你会发现单靠单变量的微积分已经远远不够用了。现实世界的问题往往错综复杂，受到多个因素的同时影响。这时，我们需要一个强大的工具来分析这些多变量系统——这就是我们要深入探讨的主题：偏导数。

在接下来的文章中，我们将一起探索偏导数的核心概念。你将不再局限于“对 $x$ 求导”，而是学会如何在多变量函数中精准地锁定一个变量，分析其变化趋势。我们将从直观的数学定义出发，结合 Python 代码实战，讨论一阶、二阶甚至混合偏导数，并分享一些在工程实践中至关重要的计算法则和性能优化技巧。

什么是偏导数？

简单来说，当我们面对一个包含多个变量的函数（比如 $f(x, y)$），并且想知道“如果我只改变 $x$，而保持 $y$ 不变，函数 $f$ 会如何变化”时，我们就是在求偏导数。

这个过程的核心思想是“控制变量”。我们将除了目标变量以外的所有其他变量都视为常数，然后应用我们熟悉的单变量求导法则。

#### 直观示例

假设我们要描述山的高度。高度 $h$ 取决于你的位置坐标 $(x, y)$。

关于 $x$ 的偏导数：告诉你如果你向正东走（改变 $x$），山的坡度是多少。
关于 $y$ 的偏导数：告诉你如果你向正北走（改变 $y$），山的坡度又是多少。

符号说明

在深入之前，我们需要先统一语言。你可能注意到了符号的变化。

> 注意：通常情况下，我们使用 ∂ (rounded d) 来表示偏导数，这与普通导数符号 d 是不同的。这提醒我们是在处理多变量系统。

数学上，对于一个依赖于变量 $x, y$ 和 $z$ 的函数 $f$，其偏导数的定义如下：

函数关于 $x$ 的偏导数（保持 $y$ 和 $z$ 不变）：

$$fx = \frac{\partial f}{\partial x} = \lim{h\to 0} \frac{f(x+h, y, z) – f(x, y, z)}{h}$$

这个公式看起来很吓人，但它本质上就是斜率的定义：$y$ 的变化量除以 $x$ 的变化量，只不过是在 $y, z$ 锁定的情况下。

实战演练：计算一阶偏导数

让我们通过一个具体的例子来拆解这个过程。这是理解偏导数最关键的一步。

假设我们有一个函数：

$$f(x,y) = x^2 + y^3$$

#### 场景 1：关于 $x$ 的偏导数 ($\frac{\partial f}{\partial x}$)

我们的目标是将 $x$ 视为变量，将 $y$ 视为常数。

锁定 $y$：在这个视角下，$y^3$ 就像数字 5 或者 10 一样，是一个常数项。
应用求导法则：

– $x^2$ 的导数是 $2x$。

– $y^3$（作为常数）的导数是 0。

计算结果如下：

$$\frac{\partial f}{\partial x} = 2x + 0 = 2x$$

#### 场景 2：关于 $y$ 的偏导数 ($\frac{\partial f}{\partial y}$)

这次，我们反过来。将 $x$ 视为常数，将 $y$ 视为变量。

锁定 $x$：$x^2$ 现在是一个常数项。
应用求导法则：

– $x^2$（作为常数）的导数是 0。

– $y^3$ 的导数是 $3y^2$。

这会得到：

$$\frac{\partial f}{\partial y} = 0 + 3y^2 = 3y^2$$

#### 代码实战：使用 SymPy 自动计算

作为开发者，我们不应该只满足于手算。让我们用 Python 的 sympy 库来验证我们的计算。这不仅准确，而且是构建符号计算AI工具的基础。

import sympy as sp

def calculate_partial_derivatives():
    # 1. 定义符号变量
    # 就像在数学中声明 ‘x‘ 和 ‘y‘ 一样
    x, y = sp.symbols(‘x y‘)
    
    # 2. 定义目标函数 f(x,y) = x^2 + y^3
    f = x**2 + y**3
    
    print(f"原始函数: f(x,y) = {f}")
    
    # 3. 计算 f 关于 x 的偏导数
    # diff 函数告诉系统对谁求导（第二个参数）
    df_dx = sp.diff(f, x)
    print(f"关于 x 的偏导数 (df/dx): {df_dx}")
    
    # 4. 计算 f 关于 y 的偏导数
    df_dy = sp.diff(f, y)
    print(f"关于 y 的偏导数 (df/dy): {df_dy}")
    
    # 5. 实际应用：在特定点 (x=1, y=2) 处求值
    point = {x: 1, y: 2}
    val_x = df_dx.subs(point)
    val_y = df_dy.subs(point)
    
    print(f"
在点 (1, 2) 处:")
    print(f"df/dx 的值: {val_x}")
    print(f"df/dy 的值: {val_y}")

# 执行函数
if __name__ == "__main__":
    calculate_partial_derivatives()

代码解释：

在这段代码中，我们首先“声明”了符号。这是符号计算库的特点，它们处理的是数学表达式本身，而不是具体的数值。通过 sp.diff(f, x)，我们明确指示系统：“只关注 $x$，把其他东西当常量处理”。这种能力在构建物理引擎或优化算法时非常有用。

进阶：二阶偏导数与混合偏导数

有时候，我们需要知道“变化率的变化率”，这就是二阶偏导数。而且在多变量世界里，情况变得更复杂但也更有趣：我们可以先对 $x$ 求导，再对 $y$ 求导。

#### 1. 纯二阶偏导数

这表示在同一个方向上两次求导。

公式如下：

$$f{xx} = \frac{\partial^2 f}{\partial x^2} \quad \text{和} \quad f{yy} = \frac{\partial^2 f}{\partial y^2}$$

让我们换一个稍微复杂一点的例子来看：$f(x,y) = x^2y + 3y^2$。

计算步骤：

我们已经在心里算出了一阶导数：

$f_x = \frac{\partial}{\partial x}(x^2y + 3y^2) = 2xy$ （注意：$y$ 是常数，所以 $3y^2$ 消失了）
$f_y = \frac{\partial}{\partial y}(x^2y + 3y^2) = x^2 + 6y$

现在，我们要对一阶导数再次求导：

关于 $x$ 的二阶导数 ($f_{xx}$)：

我们要对 $f_x = 2xy$ 再关于 $x$ 求导。

$$f_{xx} = \frac{\partial}{\partial x}(2xy) = 2y$$

解析：$y$ 还是那个常数，把它提出来，$x$ 的导数是 1。
关于 $y$ 的二阶导数 ($f_{yy}$)：

我们要对 $f_y = x^2 + 6y$ 再关于 $y$ 求导。

$$f_{yy} = \frac{\partial}{\partial y}(x^2 + 6y) = 6$$

解析：$x^2$ 是常数导数为 0，$6y$ 导数是 6。

#### 2. 混合偏导数

这是多变量微积分中最迷人的部分。我们可以先对 $x$ 求导，再对 $y$ 求导，记作 $f{xy}$；或者反过来，记作 $f{yx}$。

公式：

$$f_{xy} = \frac{\partial}{\partial y}(\frac{\partial f}{\partial x})$$

继续使用上面的例子 $f_x = 2xy$：

$$f_{xy} = \frac{\partial}{\partial y}(2xy) = 2x$$

实战中的数值验证

让我们用代码来验证这一组计算，确保我们的手动推导没有错误。这在调试复杂的物理公式时非常有用。

def advanced_derivative_example():
    x, y = sp.symbols(‘x y‘)
    # 定义函数 f(x,y) = x^2*y + 3y^2
    f = x**2*y + 3*y**2
    
    print(f"--- 函数: {f} ---")
    
    # 1. 计算一阶偏导
    df_dx = sp.diff(f, x)  # 关于 x
    df_dy = sp.diff(f, y)  # 关于 y
    
    print(f"一阶偏导数 fx: {df_dx}")
    print(f"一阶偏导数 fy: {df_dy}")
    
    # 2. 计算二阶纯偏导
    # 对 fx 再关于 x 求导
    f_xx = sp.diff(df_dx, x) 
    # 对 fy 再关于 y 求导
    f_yy = sp.diff(df_dy, y)
    
    print(f"二阶偏导数 fxx: {f_xx}")
    print(f"二阶偏导数 fyy: {f_yy}")
    
    # 3. 计算混合偏导数
    # 先 x 后 y
    f_xy = sp.diff(df_dx, y) 
    # 先 y 后 x (通常结果应该与 f_xy 相同)
    f_yx = sp.diff(df_dy, x) 
    
    print(f"混合偏导数 (先x后y): {f_xy}")
    print(f"混合偏导数 (先y后x): {f_yx}")

if __name__ == "__main__":
    advanced_derivative_example()

核心计算法则

在实际工程中，你遇到的函数可能不会像 $x^2$ 那么简单。它们通常是多个函数的组合。为了处理这些情况，我们需要几套“组合拳”。

#### 1. 乘积法则

当一个函数是两个不同函数的乘积时，即 $u = f(x,y) \cdot g(x,y)$。

如果我们要对 $x$ 求偏导，不能简单地对 $f$ 求导然后乘上 $g$。规则是：“前导后不导，加后导前不导”。

$$u_x = \frac{\partial f}{\partial x} \cdot g + f \cdot \frac{\partial g}{\partial x}$$

为什么这很重要？

在神经网络的反向传播中，梯度往往是链式法则和乘积法则的混合体。如果你漏掉了乘积法则的后半部分，梯度就会错误地归零，导致模型无法学习。

#### 2. 商法则

当一个函数是两个不同函数的商时，即 $u = \frac{f(x,y)}{g(x,y)}$。

$$u_x = \frac{(\frac{\partial f}{\partial x}) \cdot g – f \cdot (\frac{\partial g}{\partial x})}{g^2}$$

#### 3. 幂法则与链式法则

幂法则：当 $u = (f(x,y))^n$ 时，

$$u_x = n \cdot

f(x,y)

^{n-1} \cdot \frac{\partial f}{\partial x}$$

链式法则：这是微积分的灵魂。在多变量情况下，如果 $z$ 依赖于 $x$ 和 $y$，而 $x$ 和 $y$ 又依赖于 $t$，那么 $z$ 对 $t$ 的全导数是：

$$\frac{dz}{dt} = \frac{\partial z}{\partial x}\frac{dx}{dt} + \frac{\partial z}{\partial y}\frac{dy}{dt}$$

这个公式告诉我们：总的变化量等于各个路径变化量的总和。

常见陷阱与最佳实践

作为一个在这个领域摸爬滚打过的开发者，我想提醒你几个容易踩的坑：

忘记常数：这是最常见的错误。在求 $\frac{\partial f}{\partial x}$ 时，一定要问自己：“这里面的 $y$ 真的是常数吗？”如果 $y$ 也是 $x$ 的函数，那就不能直接视为常数，必须用链式法则。

符号混淆：一定要区分 $\frac{dy}{dx}$（全导数/常微分）和 $\frac{\partial y}{\partial x}$（偏导数）。在写代码注释或文档时，保持符号的严谨性可以避免很多沟通成本。

性能优化：在深度学习框架中，计算图是自动微分的。如果你手动实现偏导数（比如为了极度优化的C++内核），尽量预先计算和缓存那些重复出现的子表达式。例如，如果在计算 $f{xx}$ 和 $f{xy}$ 时都需要用到 $2xy$，不要重复计算。

总结

我们从“把其他变量当常数”这个简单的直觉出发，构建了对偏导数的完整认识。它是理解高维空间变化率的基石。无论是计算 3D 曲面的法线方向（用于光照渲染），还是调整神经网络的权重以最小化损失函数，偏导数都在幕后默默地工作。

希望这篇文章不仅帮你理解了数学公式，更让你看到了它在代码中的实际形态。下次当你面对一个复杂的多变量优化问题时，记得：把它拆解，一次只关注一个变量，剩下的交给偏导数。

实用后续步骤

尝试自己动手：找一个你感兴趣的实际问题（比如计算圆柱体体积 $V=\pi r^2 h$ 关于半径 $r$ 和高度 $h$ 的变化率），试着写出它的偏导数矩阵。
探索库的源码：去看看 INLINECODE3bced159 或 INLINECODE2af63ba8 的自动微分模块是如何实现的，你会发现它们本质上就是高效实现了我们今天讨论的链式法则和乘积法则。

祝你编码愉快，愿你的导数永远收敛！

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客