Diffusion Models for Offline Multi-agent Reinforcement Learning with Safety Constraints

要約

マルチエージェント強化学習 (MARL) の最近の進歩により、その応用は安全性が重要なさまざまなシナリオに拡張されました。
ただし、ほとんどの方法はオンライン学習に重点を置いているため、現実の環境に導入すると大きなリスクが生じます。
この課題に対処するために、私たちは MARL パラダイム内に拡散モデルを統合する革新的なフレームワークを導入します。
このアプローチは、調整されたアクションをモデル化しながらリスクを軽減することで、複数のエージェントによって実行されるアクションの安全性を特に強化します。
私たちのフレームワークは、分散実行を伴う集中トレーニング (CTDE) アーキテクチャに基づいており、予測軌道生成のための拡散モデルによって強化されています。
さらに、運用の安全性をさらに確保するために特殊なアルゴリズムを組み込んでいます。
DSRL ベンチマークのベースラインに対してモデルを評価します。
実験結果は、私たちのモデルが厳しい安全制約を遵守しているだけでなく、既存の方法論と比較して優れたパフォーマンスを達成していることを示しています。
これは、現実世界の応用における MARL の安全性と有効性を向上させる上での私たちのアプローチの可能性を強調しています。

要約(オリジナル)

In recent advancements in Multi-agent Reinforcement Learning (MARL), its application has extended to various safety-critical scenarios. However, most methods focus on online learning, which presents substantial risks when deployed in real-world settings. Addressing this challenge, we introduce an innovative framework integrating diffusion models within the MARL paradigm. This approach notably enhances the safety of actions taken by multiple agents through risk mitigation while modeling coordinated action. Our framework is grounded in the Centralized Training with Decentralized Execution (CTDE) architecture, augmented by a Diffusion Model for prediction trajectory generation. Additionally, we incorporate a specialized algorithm to further ensure operational safety. We evaluate our model against baselines on the DSRL benchmark. Experiment results demonstrate that our model not only adheres to stringent safety constraints but also achieves superior performance compared to existing methodologies. This underscores the potential of our approach in advancing the safety and efficacy of MARL in real-world applications.

arxiv情報

著者 Jianuo Huang
発行日 2024-07-19 00:30:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク