Online Double Oracle

要約

巨大なアクション スペースを使用して戦略的なゲームを解決することは、経済学、オペレーションズ リサーチ、および人工知能の分野において重要でありながら未開拓のトピックです。
この論文では、純粋な戦略の数が法外に多い 2 プレイヤーのゼロサム正規形ゲームを解くための新しい学習アルゴリズムを提案します。
具体的には、オンライン学習による後悔しない分析と、ゲーム理論によるダブルオラクル(DO)メソッドを組み合わせます。
私たちの方法 — \emph{Online Double Oracle (ODO)} — は、ナッシュ均衡 (NE) に収束することが証明されています。
最も重要なことは、通常の DO メソッドとは異なり、ODO は、ODO の各エージェントが $\mathcal{O}(\sqrt{T k \log(k)}
)$ ここで、$k$ は純粋な戦略の総数ではなく、NE のサポート サイズに線形的に依存する \emph{有効な戦略セット} のサイズです。
数十の異なる実世界のゲームで、ODO は、NE への収束率と戦略的敵対者に対する平均ペイオフの両方の点で、DO、PSRO メソッド、および Multiplicative Weight Update などの後悔のないアルゴリズムよりも大幅に優れています。

要約(オリジナル)

Solving strategic games with huge action space is a critical yet under-explored topic in economics, operations research and artificial intelligence. This paper proposes new learning algorithms for solving two-player zero-sum normal-form games where the number of pure strategies is prohibitively large. Specifically, we combine no-regret analysis from online learning with Double Oracle (DO) methods from game theory. Our method — \emph{Online Double Oracle (ODO)} — is provably convergent to a Nash equilibrium (NE). Most importantly, unlike normal DO methods, ODO is \emph{rationale} in the sense that each agent in ODO can exploit strategic adversary with a regret bound of $\mathcal{O}(\sqrt{T k \log(k)})$ where $k$ is not the total number of pure strategies, but rather the size of \emph{effective strategy set} that is linearly dependent on the support size of the NE. On tens of different real-world games, ODO outperforms DO, PSRO methods, and no-regret algorithms such as Multiplicative Weight Update by a significant margin, both in terms of convergence rate to a NE and average payoff against strategic adversaries.

arxiv情報

著者 Le Cong Dinh,Yaodong Yang,Stephen McAleer,Zheng Tian,Nicolas Perez Nieves,Oliver Slumbers,David Henry Mguni,Haitham Bou Ammar,Jun Wang
発行日 2023-02-15 09:58:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.GT パーマリンク