要約
平均場ゲーム (MFG) は、対称性の下での大規模なマルチエージェント強化学習問題を解決するための重要なツールとなっています。
ただし、現実世界のシナリオには固有の異質性が含まれることが多いため、厳密な対称性を仮定すると MFG の適用可能性が制限されます。
さらに、MFG に関するほとんどの作品は、既知の MFG モデルへのアクセスを前提としていますが、現実世界の有限エージェント ゲームではすぐに利用できない可能性があります。
この研究では、有限プレイヤーの、場合によっては非対称のゲームを「誘導 MFG」に拡張する方法論を提供することで、MFG の適用可能性を広げます。
まず、$N$ プレイヤーの動的ゲームを対称化し、明示的な Kirszbraun 拡張を介して無限プレイヤー連続体にスムーズに拡張できることを証明します。
次に、近似順列不変性を組み込んだ新しいクラスの動的人口ゲームである $\alpha,\beta$ 対称ゲームの概念を提案します。
$\alpha,\beta$ 対称ゲームの場合、明示的な近似限界を確立し、誘導 MFG のナッシュ ポリシーが $N$ プレイヤーの動的ゲームの近似ナッシュであることを示します。
有限サンプル保証のある $N$ プレイヤー ゲームの軌跡を使用すると、TD 学習が小さなバイアスまで収束し、明示的な MFG モデルを構築せずに対称化された学習が可能になることを示します。
最後に、単調性を満たす特定のゲームについて、$N$-エージェント ゲームが $\varepsilon$- を学習するためのサンプル複雑度 $\widetilde{\mathcal{O}}(\varepsilon^{-6})$ を証明します。
対称化バイアスまでナッシュします。
私たちの理論は、数千のエージェントによる MARL ベンチマークの評価によって裏付けられています。
要約(オリジナル)
Mean-field games (MFG) have become significant tools for solving large-scale multi-agent reinforcement learning problems under symmetry. However, the assumption of exact symmetry limits the applicability of MFGs, as real-world scenarios often feature inherent heterogeneity. Furthermore, most works on MFG assume access to a known MFG model, which might not be readily available for real-world finite-agent games. In this work, we broaden the applicability of MFGs by providing a methodology to extend any finite-player, possibly asymmetric, game to an ‘induced MFG’. First, we prove that $N$-player dynamic games can be symmetrized and smoothly extended to the infinite-player continuum via explicit Kirszbraun extensions. Next, we propose the notion of $\alpha,\beta$-symmetric games, a new class of dynamic population games that incorporate approximate permutation invariance. For $\alpha,\beta$-symmetric games, we establish explicit approximation bounds, demonstrating that a Nash policy of the induced MFG is an approximate Nash of the $N$-player dynamic game. We show that TD learning converges up to a small bias using trajectories of the $N$-player game with finite-sample guarantees, permitting symmetrized learning without building an explicit MFG model. Finally, for certain games satisfying monotonicity, we prove a sample complexity of $\widetilde{\mathcal{O}}(\varepsilon^{-6})$ for the $N$-agent game to learn an $\varepsilon$-Nash up to symmetrization bias. Our theory is supported by evaluations on MARL benchmarks with thousands of agents.
arxiv情報
著者 | Batuhan Yardim,Niao He |
発行日 | 2024-08-27 16:11:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google