MADiff: Offline Multi-agent Learning with Diffusion Models

要約

強力な生成モデルとしての拡散モデル (DM) は、最近、オンライン評価で軌道を生成することによって政策が計画を実行することを学習するオフライン強化学習を含むさまざまなシナリオで大きな成功を収めています。
ただし、単一エージェントの学習で有効性が示されたにもかかわらず、DM がマルチエージェントの問題でどのように動作できるかは依然として不明瞭です。マルチエージェントの問題では、エージェントは各エージェントの軌跡を個別にモデル化することで適切な調整を行わないとチームワークを完了することがほとんどできません。
この論文では、この問題に取り組むための新しい生成的マルチエージェント学習フレームワークである MADiff を提案します。
MADiff は、複数の拡散エージェントの動作間の複雑な調整をモデル化するための注意ベースの拡散モデルで実現されています。
私たちの知る限り、MADiff は初の拡散ベースのマルチエージェント オフライン RL フレームワークであり、分散型ポリシーと集中型コントローラーの両方として動作します。
分散実行中、MADiff はチームメイトのモデリングを同時に実行し、集中コントローラーはマルチエージェントの軌道予測にも適用できます。
私たちの実験では、幅広いマルチエージェント学習タスクにおいてベースライン アルゴリズムと比較して MADiff のパフォーマンスが優れていることが示されており、複雑なマルチエージェント インタラクションのモデル化における MADiff の有効性が強調されています。
私たちのコードは https://github.com/zbzhu99/madiff で入手できます。

要約(オリジナル)

Diffusion model (DM), as a powerful generative model, recently achieved huge success in various scenarios including offline reinforcement learning, where the policy learns to conduct planning by generating trajectory in the online evaluation. However, despite the effectiveness shown for single-agent learning, it remains unclear how DMs can operate in multi-agent problems, where agents can hardly complete teamwork without good coordination by independently modeling each agent’s trajectories. In this paper, we propose MADiff, a novel generative multi-agent learning framework to tackle this problem. MADiff is realized with an attention-based diffusion model to model the complex coordination among behaviors of multiple diffusion agents. To the best of our knowledge, MADiff is the first diffusion-based multi-agent offline RL framework, which behaves as both a decentralized policy and a centralized controller. During decentralized executions, MADiff simultaneously performs teammate modeling, and the centralized controller can also be applied in multi-agent trajectory predictions. Our experiments show the superior performance of MADiff compared to baseline algorithms in a wide range of multi-agent learning tasks, which emphasizes the effectiveness of MADiff in modeling complex multi-agent interactions. Our code is available at https://github.com/zbzhu99/madiff.

arxiv情報

著者 Zhengbang Zhu,Minghuan Liu,Liyuan Mao,Bingyi Kang,Minkai Xu,Yong Yu,Stefano Ermon,Weinan Zhang
発行日 2023-12-20 14:54:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク