要約
私たちは、n 人のプレーヤーの総和ゲーム、特に複雑な視覚運動スキルを可能にするゲームで均衡を見つけるための計算効率の高い方法を研究します。
この状況では既存の手法が計算上または理論上どのように困難を伴うかを示します。
次に、スキルの転移学習から恩恵を受け、ゲームの粗相関平衡 (CCE) に収束するニューラル集団学習アルゴリズムである NeuPL-JPSRO を紹介します。
正確なゲーム ソルバーによって厳密に検証された一連の OpenSpiel ゲームにおける経験的な収束を示します。
次に、NeuPL-JPSRO を複雑なドメインに展開します。このアプローチにより、MuJoCo 制御ドメインでの適応調整とキャプチャー・ザ・フラッグでのスキル伝達が可能になります。
私たちの研究は、平衡収束集団学習が大規模かつ一般的に実装可能であり、動機が異なる異種プレイヤー間の現実世界のゲームを解決する道を開くことを示しています。
要約(オリジナル)
We study computationally efficient methods for finding equilibria in n-player general-sum games, specifically ones that afford complex visuomotor skills. We show how existing methods would struggle in this setting, either computationally or in theory. We then introduce NeuPL-JPSRO, a neural population learning algorithm that benefits from transfer learning of skills and converges to a Coarse Correlated Equilibrium (CCE) of the game. We show empirical convergence in a suite of OpenSpiel games, validated rigorously by exact game solvers. We then deploy NeuPL-JPSRO to complex domains, where our approach enables adaptive coordination in a MuJoCo control domain and skill transfer in capture-the-flag. Our work shows that equilibrium convergent population learning can be implemented at scale and in generality, paving the way towards solving real-world games between heterogeneous players with mixed motives.
arxiv情報
著者 | Siqi Liu,Luke Marris,Marc Lanctot,Georgios Piliouras,Joel Z. Leibo,Nicolas Heess |
発行日 | 2024-01-10 12:56:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google