Function Approximation for Solving Stackelberg Equilibrium in Large Perfect Information Games

要約

タイトル:大規模な完全情報ゲームにおけるStackelberg均衡の関数近似

要約:

– 関数近似(FA)は、大規模な零和ゲームを解決するための重要な要素である。
– しかしながら、一般和ゲームは、完全競争または協力的な競争に比べて、計算上より複雑であることが広く認識されているにもかかわらず、FAに与えられた注意は少ない。
– 一般和ゲームにおける多くの均衡に対して、マルコフ決定過程や零和ゲームで使用される状態価値関数に対する簡単なアナログは存在しないため、重要な課題がある。
– 本論文では、一般和ゲームの状態価値関数の拡張である「執行可能なペイオフフロンティア」(EPF)を学習することを提案する。
– 我々は、EPFをニューラルネットワークで表現し、適切なバックアップ操作や損失関数を使用してトレーニングすることで、最適なStackelberg extensive-form相関均衡を近似する。
– FAをStackelberg設定に適用する最初の方法であり、FAエラーに基づくパフォーマンス保証を享受しながら、より大きなゲームにスケーリングすることができる。さらに、提案された方法はインセンティブ互換性を保証し、自己対戦や近似最良応答オラクルに依存する必要がないため、評価が容易である。

要約(オリジナル)

Function approximation (FA) has been a critical component in solving large zero-sum games. Yet, little attention has been given towards FA in solving \textit{general-sum} extensive-form games, despite them being widely regarded as being computationally more challenging than their fully competitive or cooperative counterparts. A key challenge is that for many equilibria in general-sum games, no simple analogue to the state value function used in Markov Decision Processes and zero-sum games exists. In this paper, we propose learning the \textit{Enforceable Payoff Frontier} (EPF) — a generalization of the state value function for general-sum games. We approximate the optimal \textit{Stackelberg extensive-form correlated equilibrium} by representing EPFs with neural networks and training them by using appropriate backup operations and loss functions. This is the first method that applies FA to the Stackelberg setting, allowing us to scale to much larger games while still enjoying performance guarantees based on FA error. Additionally, our proposed method guarantees incentive compatibility and is easy to evaluate without having to depend on self-play or approximate best-response oracles.

arxiv情報

著者 Chun Kai Ling,J. Zico Kolter,Fei Fang
発行日 2023-04-02 01:22:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.GT, cs.MA パーマリンク