要約
オフライン強化学習 (RL) は、それ以上の対話を行わずに既存のデータセットからポリシーを学習することを目的としているため、困難なタスクとなります。
Q 学習アルゴリズムはオフライン設定では外挿誤差に悩まされますが、教師あり学習手法はモデルの表現力によって制限されます。
最近、拡散モデル (DM) がシングル エージェント学習におけるこれらの制限を克服する可能性を示していますが、マルチ エージェント シナリオでの応用は依然として不明瞭です。
独立した DM を使用してエージェントごとに軌跡を生成すると、調整が妨げられる可能性がありますが、すべてのエージェントの情報を連結するとサンプル効率が低下する可能性があります。
そこで、我々は、複数のエージェントの行動間の複雑な連携をモデル化するために、注意ベースの拡散モデルで実現されるMADiffを提案する。
私たちの知る限り、MADiff は初の拡散ベースのマルチエージェント学習フレームワークであり、分散型ポリシーと集中型コントローラーの両方として機能します。
分散実行中、MADiff はチームメイトのモデリングを同時に実行し、集中コントローラーはマルチエージェントの軌道予測にも適用できます。
私たちの実験では、MADiff がさまざまなマルチエージェント学習タスクにわたってベースライン アルゴリズムを上回っていることが実証され、複雑なマルチエージェント インタラクションのモデル化における MADiff の有効性が強調されています。
私たちのコードは https://github.com/zbzhu99/madiff で入手できます。
要約(オリジナル)
Offline reinforcement learning (RL) aims to learn policies from pre-existing datasets without further interactions, making it a challenging task. Q-learning algorithms struggle with extrapolation errors in offline settings, while supervised learning methods are constrained by model expressiveness. Recently, diffusion models (DMs) have shown promise in overcoming these limitations in single-agent learning, but their application in multi-agent scenarios remains unclear. Generating trajectories for each agent with independent DMs may impede coordination, while concatenating all agents’ information can lead to low sample efficiency. Accordingly, we propose MADiff, which is realized with an attention-based diffusion model to model the complex coordination among behaviors of multiple agents. To our knowledge, MADiff is the first diffusion-based multi-agent learning framework, functioning as both a decentralized policy and a centralized controller. During decentralized executions, MADiff simultaneously performs teammate modeling, and the centralized controller can also be applied in multi-agent trajectory predictions. Our experiments demonstrate that MADiff outperforms baseline algorithms across various multi-agent learning tasks, highlighting its effectiveness in modeling complex multi-agent interactions. Our code is available at https://github.com/zbzhu99/madiff.
arxiv情報
著者 | Zhengbang Zhu,Minghuan Liu,Liyuan Mao,Bingyi Kang,Minkai Xu,Yong Yu,Stefano Ermon,Weinan Zhang |
発行日 | 2025-01-01 15:35:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google