MADiff: Offline Multi-agent Learning with Diffusion Models

要約

強力な生成モデルとしての拡散モデル (DM) は、最近、オンライン評価で軌道を生成することによって政策が計画を実行することを学習するオフライン強化学習を含むさまざまなシナリオで大きな成功を収めています。
ただし、単一エージェントの学習で有効性が示されたにもかかわらず、DM がマルチエージェントの問題でどのように動作できるかは依然として不明瞭です。マルチエージェントの問題では、エージェントは各エージェントの軌跡を個別にモデル化することで適切な調整を行わないとチームワークを完了することがほとんどできません。
この論文では、この問題に取り組むための新しい生成的マルチエージェント学習フレームワークである MADiff を提案します。
MADiff は、複数の拡散エージェントの動作間の複雑な調整をモデル化するための注意ベースの拡散モデルで実現されています。
私たちの知る限り、MADiff は最初の拡散ベースのマルチエージェント オフライン RL フレームワークであり、分散型ポリシーと集中型コントローラーの両方として動作し、対戦相手のモデリングを含み、マルチエージェントの軌道予測に使用できます。
MADiff は、拡散の強力な生成能力を利用すると同時に、複雑なマルチエージェント相互作用のモデル化に適しています。
私たちの実験では、さまざまなマルチエージェント学習タスクにおいて、ベースライン アルゴリズムと比較して MADiff のパフォーマンスが優れていることが示されています。

要約(オリジナル)

Diffusion model (DM), as a powerful generative model, recently achieved huge success in various scenarios including offline reinforcement learning, where the policy learns to conduct planning by generating trajectory in the online evaluation. However, despite the effectiveness shown for single-agent learning, it remains unclear how DMs can operate in multi-agent problems, where agents can hardly complete teamwork without good coordination by independently modeling each agent’s trajectories. In this paper, we propose MADiff, a novel generative multi-agent learning framework to tackle this problem. MADiff is realized with an attention-based diffusion model to model the complex coordination among behaviors of multiple diffusion agents. To the best of our knowledge, MADiff is the first diffusion-based multi-agent offline RL framework, which behaves as both a decentralized policy and a centralized controller, which includes opponent modeling and can be used for multi-agent trajectory prediction. MADiff takes advantage of the powerful generative ability of diffusion while well-suited in modeling complex multi-agent interactions. Our experiments show the superior performance of MADiff compared to baseline algorithms in a range of multi-agent learning tasks.

arxiv情報

著者 Zhengbang Zhu,Minghuan Liu,Liyuan Mao,Bingyi Kang,Minkai Xu,Yong Yu,Stefano Ermon,Weinan Zhang
発行日 2023-08-14 13:48:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク