马尔可夫决策过程 (MDP) 是一个数学框架,它利用状态、动作、奖励和转移来模拟序列决策。在强化学习中,MDP 提供了一个正式的结构来定义环境,并指导我们如何评估随时间变化的决策。
- MDP 由一个智能体组成,该智能体在一系列时间步长内与环境进行交互。
- 在每一步中,智能体观察当前状态,选择一个动作,并从环境接收一个奖励。
- 然后,环境根据所选动作转换到新状态,遵循马尔可夫属性。
- 这种结构化的公式允许强化学习算法学习使长期回报最大化的最优策略。
!9强化学习中的智能体–环境交互
MDP 的组成部分
- 智能体: 决策者,通过与环境的交互来学习以实现目标。
- 环境: 智能体与之交互的所有事物,它通过改变状态和给予奖励来响应智能体的动作。
- 状态: 在给定时间对环境当前情况的表示。
- 动作: 智能体做出的选择,影响环境的下一个状态。
- 奖励: 一种数值反馈信号,用于评估智能体所采取动作的质量。
理解强化学习中的 MDP
马尔可夫决策过程 (MDP) 为强化学习中的序列决策建模提供了一个正式框架。它定义了智能体如何通过状态、动作和奖励与环境交互,从而随时间推移学习最优行为。
1. 状态
状态描述了环境的当前情况,并包含与决策相关的所有信息。
> S = \{ s1, s2, \ldots, s_N \}, \quad
= N
这里,S 表示所有可能状态的有限集合,N 是状态的总数。
2. 动作
动作代表智能体可以采取的、用于影响环境状态的可行决策。
> A = \{ a1, a2, \ldots, a_K \}, \quad
= K
这里,A 表示所有可能动作的有限集合,K 是动作的总数。对于给定的状态 s \in S,允许的动作集合表示为 A(s),其中 A(s) \subseteq A。
3. 转移函数
转移函数定义了当采取动作时环境如何改变状态,从而捕捉动作结果中的不确定性。该过程是马尔可夫的,意味着下一个状态仅取决于当前状态和动作,而与过去的历史无关。
> P(s{t+1} \mid st, at) = T(st, at, s{t+1})
这里 T(st, at, s{t+1}) 表示在状态 s{t} 采取动作后转移到状态 s_{t+1} 的概率。
这个属性确保当前状态包含做出最优决策所需的所有信息。
4. 奖励函数
奖励函数提供数值反馈信号,引导智能体实现其目标。
> R : S \times A \times S \rightarrow \mathbb{R}
这里 R(s,a,s‘) 表示智能体在状态 s 下采取动作 a 并转换到状态 s‘ 时收到的奖励。
奖励函数通过对结果分配正值、负值或零值来隐性定义学习目标,从而鼓励理想的行为并阻止不理想的动作。
5. 马尔可夫决策过程 (MDP)
马尔可夫决策过程将状态、动作、转移动态和奖励组合到一个数学模型中,用于序列决策。
> MDP=
这个框架可以在同一个模型中表示片段性任务(具有终止状态或吸收状态)和连续性任务。
6. 策略
策略定义了智能体在 MDP 的不同状态下选择动作所遵循的策略,指导其在与环境交互时的行为。
1. 确定性策略: 确定性策略在给定状态下总是选择相同的动作。
> \pi : S \rightarrow A
2. 随机策略: 随机策略为可能的动作分配概率。
> \pi : S \times A \rightarrow [0,1], \quad \sum_{a \in A} \pi(s,a) = 1
通过遵循策略,智能体生成一系列状态、动作和奖励,从而控制被建模为 MDP 的环境。
7. 最优标准与折扣
在这里,我们通过指定如何评估随时间变化的奖励,定义了智能体在 MDP 中表现出最优行为的含义。
1. 有限范围: 优化固定数量的未来步数内的总期望奖励。
> \mathbb{E}\!\left[ \sum{t=0}^{h} rt \right]
这里我们将从当前步骤到预定义范围 h 的奖励相加。
2. 折扣无限范围: 最大化无限时间内的累积回报,同时对较远的未来奖励赋予较小的权重。
>