机器学习作为人工智能的一个子集,通过使计算机能够在无需显式编程的情况下进行学习和决策,已经彻底改变了各行各业。在博弈论和机器学习中,一个重要的概念就是子博弈完美均衡。
子博弈完美均衡是一个战略概念,它为多阶段博弈提供了解决方案,确保玩家在每个阶段都做出最优决策,从而实现整体的完美结果。通过应用机器学习算法来分析和预测多阶段博弈中的玩家行为,我们可以实现子博弈完美均衡,从而改进经济学、政治学甚至体育等各个领域的决策过程和结果。
子博弈完美纳什均衡
子博弈完美纳什均衡,顾名思义,是对纳什均衡的一种精炼。在这个概念中,玩家选择的策略不仅适用于整个博弈,而且适用于主博弈可能产生的所有子博弈。简单来说,它意味着在博弈的任何一点,无论之前的行动如何,玩家的行动都将导致随后的博弈(即子博弈)达到纳什均衡。
每一个具有完全记忆的有限重复博弈都存在一个子博弈完美纳什均衡。
> 完全记忆是指博弈规则允许每个玩家记住他在之前移动时所知道的所有信息,以及他在那些移动时所做的所有选择。
#### 博弈论中的关键术语
在深入探讨民间定理之前,我们需要了解博弈论中的一些重要概念。
- 纳什均衡: 纳什均衡是博弈论中的一个重要概念,它指出当玩家知道对手的策略且不偏离自己的初始策略时,就可以达到最优解。在这种情况下,没有任何玩家会改变他们的策略,而是会保持原样。
- 效用: 效用通常定义为个体行动的收益,可分为可转移和不可转移两类。在可转移效用下,联盟的收益需要在其成员之间自由分配;而在不可转移的情况下,联盟中玩家的收益是预先确定的,因此联盟的价值无法用一个函数来描述。
- 合作博弈论: 合作博弈论关注的是一组代理人的成就,而不是个人的成就。在这种情况下,联盟的收益可以自由地在成员之间重新分配,因为我们将联盟视为一个整体。每当系统中存在用于交换的通用货币时,这种可转移效用通常就被认为是满足的。
什么是子博弈?
子博弈是包含在更大博弈中的较小博弈。扩展式博弈中可能有一部分可以被视为一个独立的较小游戏。在博弈中,当一个节点 x 及其所有后续节点都位于仅包含 x 的后续节点的信息集中时,我们就称该节点 x 为一个子博弈。
下面是一个所有节点都发起子博弈的博弈表示图。
!Machine-Learning-Subgame-Perfect-Equilibrium-1
- 初始节点 a 表示玩家 1 的策略,他的行动可以导致 b 或 c,此时玩家 2 可以发起行动。
- 进一步地,如果玩家 2 选择行动 b,他可以导致 d 或 e;另一方面,选择 c 时,他既可以移动到 f,也可以拥有结束游戏的策略。
- 最后,在 d、e 或 f 中的任意一个节点,玩家 1 都可以采取行动来推动博弈。
博弈中的收益是根据每个玩家的博弈结果确定的。在扩展式博弈和逆向归纳的背景下,收益通常用成对的数字表示,第一个数字代表玩家 1 的收益,第二个数字代表玩家 2 的收益。在逆向归纳的背景下,每个子博弈的收益是通过从博弈结束处倒推并考虑每个玩家在每个决策点的最优策略来确定的。这涉及到比较与不同行动相关的收益,并选择在博弈的每个阶段最大化玩家收益的行动。
使用逆向归纳法,玩家将在每个子博弈中采取以下行动:
- 行动 p 和 q 的子博弈: 玩家 1 将采取收益为 (3, -1) 的行动 p,以最大化玩家 1 的收益,因此行动 W 的收益变为 (3,-1)。
- 行动 r 和 s 的子博弈: 玩家 1 将采取收益为 (4, 2) 的行动 s,以最大化玩家 1 的收益,因此…