要約
マルチエージェント強化学習(MARL)は、エージェントの協力と競争を通じて複雑な問題を解決するための強力なパラダイムとして浮上し、ドメイン全体の広範なアプリケーションを見つけました。
その成功にもかかわらず、Marlは再現性の危機に直面しています。
部分的には、この問題は、競合するエージェントの目標から生じる回転最適化ダイナミクスに関連しており、標準最適化アルゴリズムを超えた方法を必要とすることを示しています。
Marlアプローチは、変分不等式(VIS)を使用してアプローチを再構成し、そのような問題に対処するための統一されたフレームワークを提供します。
VIS向けに設計された最適化手法を活用すると、既存のMARLアルゴリズムに回転ダイナミクスを処理できる勾配ベースのVIメソッドを統合するための一般的なアプローチを提案します。
経験的な結果は、ベンチマーク全体で大幅なパフォーマンスの改善を示しています。
ゼロサムゲーム、ロック – ペーパー – スシザーとマッチングペニーでは、VIメソッドは平衡戦略へのより良い収束を達成し、マルチエージェント粒子環境:プレデタープレーでは、チームの調整も強化します。
これらの結果は、MARLの高度な最適化技術の変革の可能性を強調しています。
要約(オリジナル)
Multi-agent reinforcement learning (MARL) has emerged as a powerful paradigm for solving complex problems through agents’ cooperation and competition, finding widespread applications across domains. Despite its success, MARL faces a reproducibility crisis. We show that, in part, this issue is related to the rotational optimization dynamics arising from competing agents’ objectives, and require methods beyond standard optimization algorithms. We reframe MARL approaches using Variational Inequalities (VIs), offering a unified framework to address such issues. Leveraging optimization techniques designed for VIs, we propose a general approach for integrating gradient-based VI methods capable of handling rotational dynamics into existing MARL algorithms. Empirical results demonstrate significant performance improvements across benchmarks. In zero-sum games, Rock–paper–scissors and Matching pennies, VI methods achieve better convergence to equilibrium strategies, and in the Multi-Agent Particle Environment: Predator-prey, they also enhance team coordination. These results underscore the transformative potential of advanced optimization techniques in MARL.
arxiv情報
著者 | Baraah A. M. Sidahmed,Tatjana Chavdarova |
発行日 | 2025-02-20 17:52:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google