A Model-Based Solution to the Offline Multi-Agent Reinforcement Learning Coordination Problem

要約

複数のエージェントを調整してトレーニングすることは、ロボット工学、ゲーム理論、経済学、社会科学の応用において不可欠な問題です。
ただし、既存のマルチエージェント強化学習 (MARL) 手法のほとんどはオンラインであるため、新しいインタラクションの収集にコストがかかるか危険である現実世界のアプリケーションには実用的ではありません。
これらのアルゴリズムは、利用可能な場合にはオフライン データを活用する必要がありますが、そうすることで、いわゆるオフライン調整問題が発生します。
具体的には、現在のオフライン MARL アルゴリズムが失敗する 2 つの問題である、戦略合意 (SA) と戦略微調整 (SFT) 調整の課題を特定し、形式化します。
具体的には、一般的なモデルフリー手法には重大な欠陥があり、おもちゃドメインでも MuJoCo ドメインでも調整を必要とするオフライン マルチエージェント タスクを処理できないことが明らかになりました。
この問題に対処するために、私たちはエージェント間の対話の重要性を強調し、最初のモデルベースのオフライン MARL 手法を提案します。
その結果として得られたアルゴリズムであるモデルベースのオフライン マルチエージェント近接ポリシー最適化 (MOMA-PPO) は、合成インタラクション データを生成し、エージェントがそれに応じてポリシーを微調整しながら戦略に収束できるようにします。
このシンプルなモデルベースのソリューションは、調整集約型のオフライン タスクを解決し、厳しい部分可観測性や学習されたワールド モデルを使用した場合でも、一般的なモデルフリーの手法よりも大幅に優れたパフォーマンスを発揮します。

要約(オリジナル)

Training multiple agents to coordinate is an essential problem with applications in robotics, game theory, economics, and social sciences. However, most existing Multi-Agent Reinforcement Learning (MARL) methods are online and thus impractical for real-world applications in which collecting new interactions is costly or dangerous. While these algorithms should leverage offline data when available, doing so gives rise to what we call the offline coordination problem. Specifically, we identify and formalize the strategy agreement (SA) and the strategy fine-tuning (SFT) coordination challenges, two issues at which current offline MARL algorithms fail. Concretely, we reveal that the prevalent model-free methods are severely deficient and cannot handle coordination-intensive offline multi-agent tasks in either toy or MuJoCo domains. To address this setback, we emphasize the importance of inter-agent interactions and propose the very first model-based offline MARL method. Our resulting algorithm, Model-based Offline Multi-Agent Proximal Policy Optimization (MOMA-PPO) generates synthetic interaction data and enables agents to converge on a strategy while fine-tuning their policies accordingly. This simple model-based solution solves the coordination-intensive offline tasks, significantly outperforming the prevalent model-free methods even under severe partial observability and with learned world models.

arxiv情報

著者 Paul Barde,Jakob Foerster,Derek Nowrouzezahrai,Amy Zhang
発行日 2024-01-18 16:25:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MA パーマリンク