Observable Perfect Equilibrium

要約

ナッシュ均衡は中心的なゲーム理論ソリューションの概念として浮上していますが、多くの重要なゲームにはいくつかのナッシュ均衡が含まれており、実際の戦略エージェントを作成するには、それらの間で選択する方法を決定する必要があります。
いくつかのナッシュ均衡の精密化の概念が提案され、逐次不完全情報ゲームについて研究されてきました。
これらの概念は、特定の任意の小さな間違いに対して堅牢であり、常に存在することが保証されています。
ただし、これらはどちらも、不完全な情報の連続したゲームで強力なエージェントを開発するための正しい概念ではないと主張します。
観測可能な完全均衡と呼ばれる拡張形式ゲームの新しい均衡改良概念を定義します。この概念では、ソリューションは公に観測可能なアクション確率の震えに対してロバストです (必ずしもすべてのアクション確率に対してではなく、反対のプレイヤーが観測できない可能性があります)。
観察可能な完全均衡は、観察された間違いを考慮して、対戦相手が可能な限り合理的にプレーしているという仮定を正しく捉えています (以前の解決策の概念はそうではありませんでした)。
観測可能な完全な均衡が常に存在することが保証されていることを証明し、それがノーリミット ポーカーにおける以前の拡張形式の改良とは異なる解決策につながることを示します。
観測可能な完全均衡は、人工知能で重要な多くの重要な不完全情報ゲームをモデル化するための有用な均衡改良概念であると期待しています。

要約(オリジナル)

While Nash equilibrium has emerged as the central game-theoretic solution concept, many important games contain several Nash equilibria and we must determine how to select between them in order to create real strategic agents. Several Nash equilibrium refinement concepts have been proposed and studied for sequential imperfect-information games, the most prominent being trembling-hand perfect equilibrium, quasi-perfect equilibrium, and recently one-sided quasi-perfect equilibrium. These concepts are robust to certain arbitrarily small mistakes, and are guaranteed to always exist; however, we argue that neither of these is the correct concept for developing strong agents in sequential games of imperfect information. We define a new equilibrium refinement concept for extensive-form games called observable perfect equilibrium in which the solution is robust over trembles in publicly-observable action probabilities (not necessarily over all action probabilities that may not be observable by opposing players). Observable perfect equilibrium correctly captures the assumption that the opponent is playing as rationally as possible given mistakes that have been observed (while previous solution concepts do not). We prove that observable perfect equilibrium is always guaranteed to exist, and demonstrate that it leads to a different solution than the prior extensive-form refinements in no-limit poker. We expect observable perfect equilibrium to be a useful equilibrium refinement concept for modeling many important imperfect-information games of interest in artificial intelligence.

arxiv情報

著者 Sam Ganzfried
発行日 2023-03-17 03:42:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.GT, cs.MA, econ.TH パーマリンク