深入解析强化学习的三大核心类型：从理论到实战代码详解

2026-02-14 11:27:35 0条评论 3次阅读 0人点赞

在人工智能的浩瀚海洋中，强化学习无疑是最令人兴奋的领域之一。它让机器不仅能像人一样从错误中学习，还能在没有明确指导的情况下掌握复杂的技能，比如玩 Atari 游戏或是控制机器人。但是，当我们试图深入这一领域时，往往会遇到各种不同的术语：基于价值的、基于策略的、基于模型的……这可能会让人感到困惑。

不用担心！在这篇文章中，我们将摒弃枯燥的定义，像老朋友聊天一样，深入探讨这三种主要的强化学习类型。我们将一起拆解它们的原理，通过代码来理解它们是如何工作的，并探讨在实际应用中如何选择正确的方法。准备好开启这段旅程了吗？让我们开始吧。

!Types-of-Reinforcement-Learning

1 核心概念一览
2 基于价值的强化学习：学会计算“分值”
3 基于策略的强化学习：学会制定“计划”
4 基于模型的强化学习：拥有“内心世界”
5 总结：该如何选择？

核心概念一览

在深入细节之前，让我们先建立一个思维导图。强化学习主要可以分为以下几大流派，每种方法都有其独特的哲学和应用场景：

基于价值的强化学习: 这种方法的核心是“值不值”。它会计算在每个状态下采取某个动作的预期回报，并据此选择动作。
基于策略的强化学习: 这种方法的核心是“怎么做”。它直接学习一套行动指南（策略），告诉智能体在特定状态下应该采取什么动作。
基于模型的强化学习: 这种方法的核心是“预测未来”。它会尝试建立一个环境的模型，通过模拟来规划未来的行动路径。
Actor-Critic: 这是一种混合方法，结合了上述多种思想的优点。

现在，让我们逐一击破。

基于价值的强化学习：学会计算“分值”

想象一下你在玩一个闯关游戏。基于价值的方法就像是你手里拿了一张攻略表，表中列出了在每个房间（状态）做不同动作（比如向左走、向右走）能获得的最终得分。你的目标非常简单：总是选择那个得分最高的动作。

深入理解 Q-Learning

Q-Learning 是这一类方法的基石。它的目标是学习一个 Q 表，这个表记录了在状态 INLINECODE9638d483 下采取动作 INLINECODE74b5b11b 的长期价值，记为 Q(s, a)。我们通过贝尔曼方程来不断更新这个表：

> Q(s,a)= Q(s,a) + Q(s, a) = Q(s, a) + \alpha \left[ r + \gamma \max_{a‘} Q(s‘, a‘) – Q(s, a) \right]

这个公式看似复杂，其实逻辑很直观：我们要根据新获得的奖励 INLINECODEd16441a4 和下一个状态 INLINECODE96b30692 的最大潜力，来修正我们当前的估值。

s: 当前状态（智能体在哪里？）
a: 当前动作（智能体做了什么？）
r: 接收到的奖励（刚才的行为结果好吗？）
s‘: 下一个状态（智能体去哪了？）
a‘: 下一个潜在动作（智能体接下来能做什么？）
α: 学习率（我们要多大程度上接受新信息？）
γ: 折扣因子（未来的奖励对现在有多重要？）

实战演练：Q-Learning 代码示例

让我们通过一个具体的 Python 例子来看看它是如何工作的。我们将构建一个简单的智能体来探索一个网格环境。

import numpy as np

# 定义环境：5x5 的网格
# 目标：从 (0,0) 移动到 (4,4)
# 奖励：到达目标 +1，其他步数 -0.1
GRID_SIZE = 5
ACTIONS = [‘UP‘, ‘DOWN‘, ‘LEFT‘, ‘RIGHT‘]

class QLearningAgent:
    def __init__(self, alpha=0.1, gamma=0.9, epsilon=0.1):
        # 初始化 Q 表，全部设为 0
        self.q_table = np.zeros((GRID_SIZE, GRID_SIZE, len(ACTIONS)))
        self.alpha = alpha    # 学习率：控制更新幅度
        self.gamma = gamma    # 折扣因子：控制对未来的重视程度
        self.epsilon = epsilon # 探索率：偶尔尝试随机动作

    def get_action(self, state):
        """根据当前状态选择动作（结合探索与利用）"""
        x, y = state
        # epsilon-greedy 策略：以小概率随机探索
        if np.random.random() < self.epsilon:
            return np.random.randint(len(ACTIONS))
        # 否则，选择当前认为最好的动作
        return np.argmax(self.q_table[x, y, :])

    def update(self, state, action_idx, reward, next_state):
        """更新 Q 值表的核心逻辑"""
        x, y = state
        next_x, next_y = next_state

        # 1. 获取当前 Q 值
        current_q = self.q_table[x, y, action_idx]
        
        # 2. 获取下一个状态的最大 Q 值（这是 Value-Based 的核心）
        max_next_q = np.max(self.q_table[next_x, next_y, :])
        
        # 3. 应用贝尔曼方程计算新的 Q 值
        # 新 Q = 旧 Q + 学习率 * (真实奖励 + 折扣后的未来最佳估值 - 旧 Q)
        new_q = current_q + self.alpha * (reward + self.gamma * max_next_q - current_q)
        
        self.q_table[x, y, action_idx] = new_q

# 模拟环境互动函数（简化版）
def step(state, action_idx):
    x, y = state
    if action_idx == 0: x = max(0, x - 1) # UP
    if action_idx == 1: x = min(GRID_SIZE - 1, x + 1) # DOWN
    if action_idx == 2: y = max(0, y - 1) # LEFT
    if action_idx == 3: y = min(GRID_SIZE - 1, y + 1) # RIGHT
    
    reward = -0.1 # 每走一步都有惩罚
    done = False
    if (x, y) == (GRID_SIZE - 1, GRID_SIZE - 1):
        reward = 10 # 到达终点给大奖
        done = True
    
    return (x, y), reward, done

# 训练循环
agent = QLearningAgent()
for episode in range(100):
    state = (0, 0)
    for _ in range(100): # 限制每局最大步数
        action_idx = agent.get_action(state)
        next_state, reward, done = step(state, action_idx)
        agent.update(state, action_idx, reward, next_state)
        state = next_state
        if done:
            break

Q-Learning 的实践指南

优势在哪里？

实现简单： 逻辑非常直观，不需要复杂的微积分，只需要维护一个表格。
模型无关： 智能体不需要了解环境是如何运作的（比如物理规则），它只需要观察结果。

你会遇到的坑：

维数灾难： 如果你的状态不是简单的 5×5 网格，而是一张高清图片（几百万个像素），Q 表会大到你的内存根本存不下。
收敛速度慢： 它需要不断地尝试每一个状态和动作的组合，这可能需要花费极其漫长的时间。

进阶：Deep Q-Learning (DQN)

为了解决 Q 表无法应对复杂环境（如玩 Atari 游戏）的问题，我们可以使用 深度神经网络 来代替 Q 表。这就是 DQN。

DQN 将状态的图像作为输入，输出每个动作的 Q 值。这意味着我们不再需要存储海量的表格，而是让神经网络去“拟合”这个 Q 函数。这使得智能体具备了理解高维视觉信息的能力，是强化学习历史上的一个里程碑。

基于策略的强化学习：学会制定“计划”

基于价值的方法有时候会显得很笨拙，特别是在面对连续动作空间时。例如，如果你在训练一个机器人手臂去抓杯子，Q-Learning 需要尝试无数种微小的角度变化，而这几乎是不可能的。

基于策略的方法则采取了完全不同的思路：它不再计算每个动作的“分数”，而是直接学习一个函数 π(a|s)。这个函数直接告诉你：在状态 s 下，应该做动作 a 的概率是多少。

REINFORCE 算法解析

REINFORCE 是最经典的策略梯度算法之一。它的原理有点像“锦上添花”：如果智能体采取了一串动作并最终获得了高回报，我们就提高这串动作在未来被选择的概率；反之，如果结果很糟，就降低其概率。

其数学核心在于策略梯度的更新：

abla J(\theta) = \mathbb{E} \left[

abla \log \pi_{\theta}(a \mid s) \cdot R \right]

简单来说，我们沿着累积奖励 R 增加最快的方向调整我们的策略参数 θ。

实战演练：REINFORCE 代码示例

在这个例子中，我们将实现一个简单的策略网络，它能够学习如何在 CartPole（倒立摆）任务中保持平衡。

import torch
import torch.nn as nn
import torch.optim as optim
import numpy as np

class PolicyNetwork(nn.Module):
    def __init__(self, input_size, action_size):
        super(PolicyNetwork, self).__init__()
        # 一个简单的两层神经网络
        self.fc1 = nn.Linear(input_size, 16)
        self.fc2 = nn.Linear(16, action_size)
        
    def forward(self, x):
        x = torch.relu(self.fc1(x))
        x = torch.softmax(self.fc2(x), dim=-1) # 输出动作的概率分布
        return x

    def act(self, state):
        state = torch.from_numpy(state).float().unsqueeze(0)
        probs = self.forward(state) # 获取每个动作的概率
        
        # 从概率分布中采样动作（这增加了探索性）
        m = torch.distributions.Categorical(probs)
        action = m.sample()
        
        return action.item(), m.log_prob(action) # 返回动作及其对数概率

def train_policy_network():
    env = gym.make(‘CartPole-v1‘) # 假设使用了 gym 环境
    policy = PolicyNetwork(env.observation_space.shape[0], env.action_space.n)
    optimizer = optim.Adam(policy.parameters(), lr=1e-2)
    
    gamma = 0.99 # 折扣因子
    
    for episode in range(500):
        state = env.reset()
        log_probs = [] # 存储这一轮的所有对数概率
        rewards = []    # 存储这一轮的所有奖励
        
        for _ in range(200): # 每一局最多 200 步
            action, log_prob = policy.act(state)
            next_state, reward, done, _ = env.step(action)
            
            log_probs.append(log_prob)
            rewards.append(reward)
            state = next_state
            
            if done:
                break
        
        # 计算每个时间步的累积奖励
        returns = []
        R = 0
        for r in reversed(rewards):
            R = r + gamma * R
            returns.insert(0, R)
            
        returns = torch.tensor(returns)
        # 归一化：可以让训练更稳定
        returns = (returns - returns.mean()) / (returns.std() + 1e-9)
        
        # 计算损失
        policy_loss = []
        for log_prob, R in zip(log_probs, returns):
            # 策略梯度核心：如果是好的一局，我们希望增加该动作的概率
            # 所以我们将负的对数概率乘以回报，然后进行梯度下降
            # 这等同于梯度上升
            policy_loss.append(-log_prob * R)
        
        optimizer.zero_grad()
        policy_loss = torch.stack(policy_loss).sum()
        policy_loss.backward() # 反向传播
        optimizer.step() # 更新参数

        if episode % 50 == 0:
            print(f"Episode {episode}, Total Reward: {sum(rewards)}")

基于策略方法的独特优势

处理连续动作： 这种方法特别适合处理连续的动作空间（如机器人控制），因为它输出的是一个概率分布，可以直接选择连续值。
随机策略： 它可以学习出随机策略，这在“石头剪刀布”等博弈游戏中至关重要。如果 Q-Learning 的策略总是固定出“石头”，那很快就会被打败；而策略梯度方法可以学会 33% 出剪刀，33% 出石头，34% 出布，让对手无迹可寻。

实战中的痛点

样本效率低： 由于每次更新需要跑完一整局（或一长串序列），样本的利用率通常不如基于价值的方法高。
训练不稳定： 策略梯度的方差很大，有时候可能稍微调了一下参数，性能就突然崩塌。

进阶技巧：Proximal Policy Optimization (PPO)

为了解决训练不稳定的问题，我们通常会使用 PPO。这是目前最流行的方法。PPO 通过限制策略更新的幅度，即“不要让新的策略比旧策略变化太大”，来确保训练过程平稳进行。这使得它在训练复杂机器人时表现非常出色。

基于模型的强化学习：拥有“内心世界”

前两种方法都是基于无模型的，它们就像是一个只会死记硬背的学生，不做任何预测。而基于模型的方法则试图理解世界的运作规律。

核心思想：学习一个环境模型

基于模型的 RL 不仅仅学习策略，它还试图学习一个关于环境的函数 P(s‘|s,a)。这个模型可以预测：“如果我做了动作 a，环境大概率会变成 s‘”。

有了这个预测模型，智能体就可以在脑海中（或者说在模拟器中）进行推演。它不需要真的在现实环境中走一万步，可以在“想象”中尝试各种可能的路径，找出最好的那一条，然后再在现实中执行一次。

Model Predictive Control (MPC)

MPC 是基于模型 RL 的典型应用。智能体利用学到的模型，预测未来 N 步的状态，然后计算这一序列动作的总回报，选择第一步执行。执行完后，再次进行预测和规划。这种方法在自动驾驶和工业控制中应用非常广泛。

基于模型方法的优势

样本效率极高： 通过模拟想象，它可以节省大量的现实交互时间。现实中跑 1000 次可能很贵，但在模拟器里跑 100 万次只是几毫秒的事。
可解释性强： 我们可以查看智能体学到的环境模型，看看它到底认为世界是怎么运作的，这在医疗等安全敏感领域非常重要。

挑战：模型偏差

当然，这种方法也不是完美的。如果你的“内心世界”模型不准确，那么基于这个模型规划出来的动作在现实中可能完全行不通。这就叫“模型偏差”。这就好比你根据一份错误的地图去找宝藏，可能越走越偏。

总结：该如何选择？

现在我们已经涵盖了三种主要类型的强化学习。作为一名工程师，你在实际项目中该如何选择呢？

如果你是初学者或处理离散状态： 从 Q-Learning 或 DQN 开始。它们稳定且易于调试。
如果你需要处理连续控制（如机器人手臂）： 基于策略的方法（如 PPO） 或者 Actor-Critic 方法 通常是最佳选择。
如果现实数据极其昂贵（如自动驾驶）： 你需要优先考虑 基于模型的方法，通过模拟来大幅减少数据采集的成本。

下一步行动建议

为了真正掌握这些知识，建议你：

亲手动手实现上面的 Q-Learning 代码，尝试修改 alpha 和 gamma 看看效果有什么变化。
尝试在 Gym 环境中训练一个 PPO 智能体来玩 CartPole 游戏。
思考一下，如果你要设计一个交易机器人，你会选择哪种类型的 RL 算法？为什么？

希望这篇文章能帮你理清强化学习的脉络。虽然路还很长，但只要你持续探索，你就能构建出令人惊叹的智能体。祝你编码愉快！

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客