强化学习中的函数逼近：从理论到实践的完整指南

2026-02-07 18:26:31 0条评论 2次阅读 0人点赞

欢迎来到强化学习的进阶领域！如果你已经掌握了基于表格的强化学习（如 Q-Learning）的基础，你会发现它在处理像 Atari 游戏或机器人控制这样复杂的环境时显得力不从心。为什么？因为现实世界的状态空间是无限的，我们无法为每一个可能的状态建立一张表格。

在这篇文章中，我们将深入探讨函数逼近这一核心技术，它赋予智能体“举一反三”的能力，使其能够利用有限的经验去理解和应对无限的世界。我们将一起剖析其背后的数学原理，探讨不同的逼近方法，并通过大量的 Python 代码实战，带你从理论走向应用。无论你是想优化现有的算法，还是想解决大规模状态空间问题，这篇文章都将为你提供实用的见解和工具。

函数逼近的意义

在传统的强化学习中，我们通常使用表格来存储价值函数 $V(s)$ 或 $Q(s, a)$。这在状态空间较小（例如迷宫游戏）时非常有效。然而，面对高维、连续的状态空间（例如控制机械臂的关节角度，或者处理原始像素输入的屏幕图像），表格法会遭遇“维度灾难”。不仅内存存不下，更重要的是，智能体访问过的状态仅仅是冰山一角，未访问过的状态价值为零，导致算法泛化能力极差。

函数逼近的出现解决了这一痛点。核心思想是：使用带有参数 $ heta$ 的函数来拟合价值函数或策略。 也就是说，我们不再存储一个个孤立的数值，而是学习一个数学公式。这个公式能够根据状态的特征，通过计算预测出价值。这使得智能体可以利用相似状态之间的关联，将学到的知识泛化到未见过的状态中。

#### 核心优势解析

处理复杂性与无限性：

我们不再受限于离散的网格。通过参数化函数，我们可以用有限的参数（如神经网络中的权重）去表示无限的状态空间。这使得处理连续控制问题（如自动驾驶车辆的方向控制）成为可能。

强大的泛化能力：

这是函数逼近最迷人的地方。如果智能体学会了“看到红灯就要停车”，那么即使是略有不同的红灯（比如亮度不同、角度不同），通过特征提取和函数逼近，它也能识别出该停车的价值，而不是将其视为全新的未知状态。

计算与存储效率：

虽然训练过程可能需要更多的计算资源（如梯度反向传播），但在推理阶段，我们只需要进行一次前向传播计算，大大降低了存储需求，使得算法可以扩展到大规模复杂任务中。

强化学习中函数逼近的类型

函数逼近的方法多种多样，从简单的线性组合到复杂的深度神经网络。让我们逐一探讨这些方法及其适用场景。

#### 1. 线性函数逼近

这是最直观的入门方法。我们假设价值函数是状态特征向量的线性组合。

数学原理：

$$ \hat{V}(s; \mathbf{w}) = \mathbf{w}^T \phi(s) $$

其中，$\phi(s)$ 是状态 $s$ 的特征向量，$\mathbf{w}$ 是权重向量。虽然它的形式简单，但在特征工程做得好的情况下，线性逼近器具有很高的样本效率和稳定性。

优点：

收敛性有理论保证（在特定条件下）。
计算极其迅速，适合资源受限的设备。

缺点：

无法处理非线性关系（例如 XOR 问题）。
极度依赖人工特征提取的质量。

代码实战：线性逼近器示例

让我们实现一个简单的线性逼近器，用于预测状态价值。我们可以使用 numpy 来进行矩阵运算。

import numpy as np

class LinearApproximator:
    def __init__(self, num_features, learning_rate=0.01):
        # 初始化权重向量 w
        self.weights = np.random.rand(num_features)
        self.lr = learning_rate

    def predict(self, features):
        # 预测价值：w^T * phi(s)
        return np.dot(self.weights, features)

    def update(self, features, target):
        # 计算当前预测值
        prediction = self.predict(features)
        # 计算误差
        error = target - prediction
        # 梯度下降更新权重：w = w + alpha * error * features
        # 这里使用的是半梯度下降的简化形式
        gradient = features 
        self.weights += self.lr * error * gradient
        return error

# 实际应用场景模拟
# 假设我们有一个简单的环境，状态由2个特征组成（例如距离和角度）
approximator = LinearApproximator(num_features=2)

# 模拟一批经验数据
# 特征: [0.8, 0.1], 目标价值: 10.0
features = np.array([0.8, 0.1])
target_value = 10.0

# 训练前的预测
print(f"初始预测: {approximator.predict(features):.2f}")

# 进行一次更新
for _ in range(10):
    approximator.update(features, target_value)

# 训练后的预测
print(f"训练后预测: {approximator.predict(features):.2f}")
print(f"学到的权重: {approximator.weights}")

代码解读：在这个例子中，我们定义了一个简单的线性模型。update 方法实现了增量式学习，模拟了强化学习中的 TD(0) 更新过程。你会看到，随着训练的进行，权重逐渐调整，使得预测值逼近真实的目标价值。

#### 2. 非线性函数逼近（深度学习）

这是当前最主流的方法，尤其是深度 Q 网络 (DQN) 的出现标志着“深度强化学习”时代的开启。神经网络能够自动从原始数据（如像素图像）中提取特征。

数学原理：

$$ Q(s, a) \approx f(s; \theta) $$

其中 $f$ 是一个深度神经网络，$\theta$ 是网络的所有权重和偏置。

关键洞察：

特征自动提取：不再需要人工设计 $\phi(s)$，神经网络内部层负责这一过程。
强大的表达能力：可以拟合任意复杂的非线性函数。

挑战：

训练不稳定，容易出现发散。
需要大量数据。
容易过拟合。

代码实战：基于 PyTorch 的简单 Q 网络

让我们看看如何用 PyTorch 构建一个非线性逼近器。

import torch
import torch.nn as nn
import torch.optim as optim

class NonLinearQNetwork(nn.Module):
    def __init__(self, state_size, action_size, hidden_size=64):
        super(NonLinearQNetwork, self).__init__()
        # 定义全连接层
        self.fc1 = nn.Linear(state_size, hidden_size)
        self.relu = nn.ReLU() # 激活函数引入非线性
        self.fc2 = nn.Linear(hidden_size, hidden_size)
        self.fc3 = nn.Linear(hidden_size, action_size)

    def forward(self, state):
        x = self.fc1(state)
        x = self.relu(x)
        x = self.fc2(x)
        x = self.relu(x)
        return self.fc3(x)

# 初始化网络和优化器
state_dim = 4  # 例如 CartPole 环境的状态维度
action_dim = 2 # 动作数量
q_network = NonLinearQNetwork(state_dim, action_dim)
optimizer = optim.Adam(q_network.parameters(), lr=0.01)

# 模拟一个训练步骤
# 假设有一个状态 batch 和对应的目标 Q 值
state_batch = torch.randn(10, state_dim) # 10个样本
target_q_values = torch.randn(10, action_dim)

# 训练循环
q_network.train()
# 前向传播
predicted_q = q_network(state_batch)
# 计算损失 (均方误差)
loss = nn.MSELoss()(predicted_q, target_q_values)

# 反向传播
optimizer.zero_grad()
loss.backward()
optimizer.step()

print(f"当前损失: {loss.item():.4f}")

代码解读：这里我们构建了一个简单的三层神经网络。ReLU 激活函数赋予了模型处理非线性关系的能力。这个过程展示了如何通过反向传播来更新参数 $\theta$，以最小化预测误差。在 DQN 中，目标值通常通过 Bellman 方程计算得出。

#### 3. 基函数方法

介于线性和深度方法之间。基函数将状态空间映射到更高维的空间，使得在这个空间中，问题变得线性可分或更容易逼近。

径向基函数 (RBF)：类似于高斯分布，以某一点为中心，随着距离衰减。RBF 网络是局部逼近的典型代表。
Tile Coding (铺块编码)：一种非常高效的离散化方法。它将连续状态空间划分为多个“瓦片”，每个瓦片对应一个特征。如果状态落在某个瓦片中，对应特征就激活。

实用建议：Tile Coding 是很多经典 RL 算法（如 True Online Sarsa) 的首选特征处理方式，因为它比神经网络快，比朴素离散化更平滑。

#### 4. 核方法

这在强化学习中较少见，但在样本效率极高的小规模问题中很有用。它不显式地计算特征映射到高维空间的坐标，而是通过“核函数”计算数据点在高维空间的相似度。高斯过程就是基于此的典型方法。

权衡：计算成本通常随着数据量的增加呈平方或三次方增长，难以扩展到大规模数据集。

强化学习函数逼近的关键概念

要真正掌握函数逼近，除了模型结构，你还需要理解以下几个核心概念，它们是算法稳定运行的基石。

#### 1. 特征工程

对于线性和基于核的方法，特征就是一切。如果你不能提供具有区分度的特征，模型就无法学习。在深度学习中，虽然网络可以自动提取特征，但输入数据的归一化（Normalization）依然是至关重要的预处理步骤。

常见陷阱：没有归一化的输入会导致梯度消失或爆炸，使得神经网络无法收敛。
最佳实践：始终保持输入数据的均值为 0，方差为 1。

# 简单的归一化代码片段
import numpy as np

def normalize_state(state):
    # 假设 state 是数组
    return (state - np.mean(state)) / (np.std(state) + 1e-8) # 加上小量防止除以0

#### 2. 目标函数与损失函数

我们在训练什么？在监督学习中，我们最小化预测值与真实值的误差。在强化学习中，这变得复杂，因为我们通常没有“真实值”，只有“回报”。

我们通常最小化 TD Error (时序差分误差) 的平方：

$$ L(\theta) = \mathbb{E} \left[ \left( r + \gamma \max Q(s‘, a‘; \theta^-) – Q(s, a; \theta) \right)^2 \right] $$

这里的挑战在于，目标是不断变化的（非平稳性）。这就是为什么训练 RL 比训练普通的图像分类要难得多的原因。

#### 3. 探索与利用

在使用函数逼近时，这一点变得更加微妙。

利用：根据当前网络预测的最大 Q 值选择动作。
探索：尝试随机动作。

问题：如果神经网络初期过拟合了某些高估的动作，它可能会一直忽视其他动作，导致陷入局部最优。
解决方案：我们通常不直接选择最大 Q 值的动作，而是添加噪声。最流行的方法是 Boltzmann 分布 或 Epsilon-Greedy。

函数逼近中的挑战与解决方案

在实际项目中，你肯定会遇到各种“坑”。以下是我们总结的常见挑战及其解决方案。

#### 1. 不稳定性与发散

这是非线性逼近（如 DQN）最臭名昭著的问题。由于数据和目标都是通过同一个网络生成的，训练过程像是在追逐一个不断移动的靶子，很容易产生震荡。

解决方案：经验回放

打破数据之间的相关性。我们将产生的转移元组 $(s, a, r, s‘)$ 存储在一个缓冲区中，训练时随机采样。

class ReplayBuffer:
    def __init__(self, capacity):
        self.capacity = capacity
        self.buffer = []
        self.position = 0

    def push(self, state, action, reward, next_state, done):
        if len(self.buffer) < self.capacity:
            self.buffer.append(None)
        self.buffer[self.position] = (state, action, reward, next_state, done)
        self.position = (self.position + 1) % self.capacity

    def sample(self, batch_size):
        # 关键：随机打乱并采样，打破时间相关性
        indices = np.random.choice(len(self.buffer), batch_size, replace=False)
        return [self.buffer[idx] for idx in indices]

解决方案：目标网络

使用两个网络：一个主网络用于选择动作，一个目标网络用于计算目标 Q 值。目标网络的参数每隔一段时间才从主网络复制过来，或者通过软更新缓慢跟随。

# 软更新示例
def soft_update(target_net, source_net, tau=0.001):
    """
    将目标网络的参数向源网络缓慢靠近
    target = target * (1-tau) + source * tau
    """
    for target_param, source_param in zip(target_net.parameters(), source_net.parameters()):
        target_param.data.copy_(target_param.data * (1.0 - tau) + source_param.data * tau)

#### 2. 惊险激励

即使函数逼近误差很小，也可能导致策略崩溃。假设状态 $s1$ 和 $s2$ 都被网络稍微高估了，但 $s2$ 高估得更多。策略会转移到 $s2$，这可能导致灾难性的后果（例如车撞毁了）。

应对策略：

Clip Rewards：将奖励限制在 [-1, 1] 之间，防止极端值主导损失函数。
Huber Loss：使用对异常值不那么敏感的损失函数，代替 MSE。

应用场景

函数逼近将强化学习的边界推向了工业级应用：

游戏 AI：AlphaGo 和 Dota 2 AI 都是基于深度函数逼近的杰作。
机器人控制：从机械臂抓取到双足机器人行走，需要处理连续的关节角度空间，线性逼近器结合 Tile Coding 或神经网络是标准配置。
推荐系统：网易云音乐或 Netflix 使用函数逼近来预测用户对未见过内容的评分（价值），从而动态调整推荐策略。

总结与后续步骤

我们一起穿越了强化学习中函数逼近的版图，从简单的线性组合到复杂的深度神经网络。我们了解到，函数逼近不仅仅是让表格变大，而是引入了“泛化”这一核心能力，使智能体能够处理复杂的现实世界。

回顾一下核心要点：

当状态空间过大或连续时，必须使用函数逼近。
线性方法稳定且高效，但依赖特征工程；非线性方法（神经网络）强大但难以调优。
稳定性是最大的挑战，利用“经验回放”和“目标网络”是解决这一问题的关键。

给你的下一步建议：

不要只停留在理论层面。我强烈建议你从实现一个简单的 Tile Coding 线性逼近器开始，尝试在 CartPole 环境中训练它。当你理解了基础的运作机制后，再去尝试实现一个完整的 DQN 代理。在这个过程中，你会深刻体会到“损失函数下降并不意味着得分提高”这一强化学习的独特魅力。

祝你编码愉快！如果在实践中遇到发散问题，记得检查学习率，并尝试使用经验回放池。

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客