机器学习 (ML) 和博弈论,基本上都围绕纳什均衡这一概念展开。机器学习 以其从数据中寻找规律和进行预测的能力而闻名,而纳什均衡则是博弈论 中的一个基本概念,用于分析策略互动。在本文中,我们将深入探讨纳什均衡的相关内容。
纳什均衡 是 博弈论 中的一个重要概念,它提供了在参与者 不偏离 其初始策略情况下的最优结果。这种状态的达成是因为没有任何激励能促使参与者去改变策略。这一概念以数学家约翰·纳什命名,它定义了涉及两个或更多参与者的非合作博弈的解。
由于策略保持最优且用户未获得任何额外激励,这也意味着参与者彼此了解对方的策略,因此完全不会发生偏离。
考虑到其他参与者保持策略不变,在这种情况下,任何个体都无法通过单方面偏离策略获得额外的增量收益。一个博弈可以存在多个纳什均衡,也可以不存在纳什均衡。
关键点
- 纳什均衡通过不偏离初始策略,为达成预期结果提供了 最优解决方案。
- 由于个体已经知晓彼此的策略,双方都能成为赢家,因为每个人都获得了他们预期的结果。
- 一个典型的例子是 囚徒困境。
- 由于参与者都渴望获胜,他们会执行能引导他们达到这种状态的策略。因此,所选策略是他们能采用的最好且最优的解决方案。这也与 支配策略 有关联。
- 此外,如前所述,博弈中可能不存在任何纳什均衡。因此,所选策略并不总是最优的。
纳什均衡揭示了当参与者不偏离其初始策略且知晓其他参与者策略时的最优解。这种情况下,没有任何参与者会改变策略,他们会保持原状。
另一方面,支配策略 确保所选策略在所有可能存在的策略中能带来更好的结果。它并不依赖于对手打算使用的策略。
虽然两者看起来很相似,但它们之间存在显著的差异。
纳什均衡意味着,如果其中一个用户偏离策略(而其他参与者保持不变),没有任何参与者能从中获利;然而,根据支配策略,偏离初始策略可能会导致该参与者获胜,因为这是他的最佳解决方案。
在给定的博弈中,我们有两个参与者,分别采用策略 S1 和 S2。
考虑到双方都知道彼此的策略或已被告知,且双方都不会改变初始策略,S1 被视为最优策略。他们会选择 S1,因为他们知道偏离它不符合比赛的最大利益。
因此,如果他们选择 S1,双方都会赢。而在其他情况下,转向 S2 会导致其中一方失败。
囚徒困境
囚徒困境被认为是纳什均衡的一个经典例子。
假设两名囚犯因一项重罪被捕,该罪名的刑罚是 7 年监禁。他们确实参与了犯罪,但检察官没有任何证据来支持他们的指控。
为了确保能得出结论,检察官将他们分别关押在不同的监狱里,完全隔离,没有任何通讯手段。
他们面临以下几种选择:
- 他们可以背叛对方,这样提供证据(背叛)的人将被免除刑罚。
- 他们可以保持沉默,这意味着他们将被监禁 1 年。
- 双方都可以背叛对方,结果两人都将服刑 7 年。
在这种情况下,纳什均衡是双方都背叛对方,这将使他们每个人都在监狱中服刑 7 年。这是因为,如果其中一人保持沉默而另一人背叛,那么保持沉默的那个人将面临最糟糕的后果。
要找到纳什均衡,首先必须假设博弈中所有可能的情景,然后从中找出最优的那一个。
在两人博弈中,我们需要遍历所有可能的玩法。如果最终没有任何一方偏离他们的策略,那么我们就可以说,已经达到了纳什均衡。