部分可观测马尔可夫决策过程 (POMDP) 是一种用于在不确定情况下进行决策的数学框架,在这种情境下,决策者缺乏关于环境当前状态的完整信息或获得的信息存在噪声。POMDP 在机器人技术、医疗保健、金融等多个领域都有广泛的应用。
在本文中,我们将深入探讨部分可观测马尔可夫决策过程 (POMDP) 的概念、组成要素、数学框架、求解策略,以及如何使用 Python 在迷宫导航中进行实际应用。
目录
- 什么是部分可观测马尔可夫决策过程 (POMDP)?
- 部分可观测马尔可夫决策过程的数学框架
- 马尔可夫决策过程 vs POMDP
- 求解部分可观测马尔可夫决策过程的策略
- 使用 Python 探索部分可观测马尔可夫决策过程在迷宫导航中的应用
- 结论
前置知识
- 概率论: 我们将概率论应用于 POMDP,以对智能体 observations 的不确定性以及环境内部状态的变化进行建模。
- 马尔可夫过程: 马尔可夫过程(有时称为马尔可夫链)是一种描述系统如何随时间变化的随机模型。它假设系统的未来状态仅取决于其当前状态,而与之前的这一系列事件无关。
- 决策理论: 决策理论考虑到各种行为及其可能结果之间的权衡,为在不确定性下进行决策提供了一个框架。
什么是部分可观测马尔可夫决策过程 (POMDP)?
POMDP 对智能体必须基于不完整或不确定的状态信息做出决策的任务进行建模。它在智能体无法直接观察到系统底层状态,而是接收提供关于状态的部分信息的观测场景中特别有用。
POMDP 的组成部分
POMDP 由以下元素正式定义:
- 状态: 代表系统可能处于的所有可能情况的有限状态集。
- 动作: 智能体可用的有限动作集。
- 转移模型 (T): 一个函数 T(s,a,s′)=P(s′∣s,a),定义了在动作 a 下从状态 s 转移到状态 s′ 的概率。
- 观测: 智能体可以感知到的有限观测集。
- 观测模型 (Z): 一个函数 Z(s′,a,o)=P(o∣s′,a),定义了在执行动作 a 并到达状态 s′ 后观测到 o 的概率。
- 奖励: 一个函数 R(s,a),用于分配在状态 s 下执行动作 a 的数值奖励。
- 折扣因子 (γ): 一个介于 0 和 1 之间的因子,用于折算未来的奖励,反映了相对于未来收益对即时奖励的偏好。
部分可观测马尔可夫决策过程的数学框架
POMDP 中的决策过程是一个状态、动作和观测的循环。在每个时间步,智能体:
- 观察到一个部分揭示环境状态的信号。
- 根据积累的观测选择一个动作。
- 接收一个依赖于动作和底层状态的奖励。
- 根据转移模型移动到一个新状态。
POMDP 的主要挑战在于智能体不知道其确切的状态,但拥有关于可能状态的信念或概率分布。随着新的观测被做出,这个信念会使用贝叶斯规则进行更新,形成一个信念更新规则:
Bel(s‘) =\frac{ P(o
s,a) Bel(s)}{P(oa, Bel)}
其中:
- Bel(s) 是处于状态 s 的先验信念。
- Bel(s′) 是在观测到 o 并采取动作 a 后的更新信念。
求解部分可观测马尔可夫决策过程的策略
部分可观测马尔可夫决策过程 (POMDP) 在智能体信息不完整的环境中提出了重大挑战。求解 POMDP 涉及在不确定性下优化决策策略,这在许多实际应用中至关重要。本概述重点介绍了应对这些挑战的关键策略和方法。
信念状态表示:
在 POMDP 中,智能体维护一个信念状态——即所有可能状态上的概率分布——以处理不确定性。这个信念会根据动作和观测通过贝叶斯规则动态更新。
求解技术:
- 值迭代: 将传统的值迭代扩展到信念状态,使用分段线性和凸函数来近似值函数。
- 点基值迭代 (PBVI): 通过选择信念空间中的一组代表性点来简化计算。
- 蒙特卡洛方法: 使用采样技术来估计值函数和策略。