Diffusion Models for Offline Multi-agent Reinforcement Learning with Safety Constraints

要約

近年のマルチエージェント強化学習(MARL)の進歩により、その応用は様々なセーフティ・クリティカルなシナリオにまで広がっている。しかし、ほとんどの手法はオンライン学習に焦点を当てており、実環境に導入する際に大きなリスクを伴う。この課題に対処するため、我々はMARLパラダイムに拡散モデルを統合した革新的なフレームワークを導入する。このアプローチは、協調行動をモデル化しながら、リスク軽減を通じて複数のエージェントによる行動の安全性を顕著に向上させる。我々のフレームワークは、予測軌道生成のための拡散モデルによって補強された、分散実行付き集中トレーニング(CTDE)アーキテクチャを基礎としている。さらに、運用の安全性をさらに確保するために、特殊なアルゴリズムを組み込んでいる。DSRLベンチマークにおいて、我々のモデルをベースラインに対して評価しました。実験結果は、我々のモデルが厳しい安全性制約を遵守するだけでなく、既存の方法論と比較して優れた性能を達成していることを示しています。これは、実世界のアプリケーションにおけるMARLの安全性と有効性を向上させる上で、我々のアプローチの可能性を強調するものである。

要約(オリジナル)

In recent advancements in Multi-agent Reinforcement Learning (MARL), its application has extended to various safety-critical scenarios. However, most methods focus on online learning, which presents substantial risks when deployed in real-world settings. Addressing this challenge, we introduce an innovative framework integrating diffusion models within the MARL paradigm. This approach notably enhances the safety of actions taken by multiple agents through risk mitigation while modeling coordinated action. Our framework is grounded in the Centralized Training with Decentralized Execution (CTDE) architecture, augmented by a Diffusion Model for prediction trajectory generation. Additionally, we incorporate a specialized algorithm to further ensure operational safety. We evaluate our model against baselines on the DSRL benchmark. Experiment results demonstrate that our model not only adheres to stringent safety constraints but also achieves superior performance compared to existing methodologies. This underscores the potential of our approach in advancing the safety and efficacy of MARL in real-world applications.

arxiv情報

著者 Jianuo Huang
発行日 2024-08-01 20:15:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク