Safe Multi-Agent Reinforcement Learning for Behavior-Based Cooperative Navigation

要約

この論文では、安全なマルチエージェント強化学習~(MARL)を使用した移動ロボットの行動ベースの協調ナビゲーションの問題に取り組みます。
私たちの研究は、編隊の重心に単一のターゲットを使用し、ロボットの個別の参照ターゲットを使用せずに協調ナビゲーションに焦点を当てた初めての作業です。
これにより、複数のパス プランナーがロボットのチームを制御することに伴う複雑さが解消されます。
安全性を確保するために、MARL フレームワークはモデル予測制御 (MPC) を使用して、トレーニングおよび実行中に衝突につながる可能性のあるアクションを防止します。
私たちは、シミュレーションと実際のロボットでこの方法の有効性を実証し、個別の参照ターゲットを使用せずに安全な行動ベースの協調ナビゲーションを実現し、衝突ゼロで、ベースラインと比較してより速くターゲットに到達します。
最後に、学習プロセスに対する MPC 安全フィルターの影響を研究し、トレーニング中により高速な収束が達成されることを明らかにし、トレーニングの初期段階であっても、私たちのアプローチが実際のロボットに安全に導入できることを示します。

要約(オリジナル)

In this paper, we address the problem of behavior-based cooperative navigation of mobile robots using safe multi-agent reinforcement learning~(MARL). Our work is the first to focus on cooperative navigation without individual reference targets for the robots, using a single target for the formation’s centroid. This eliminates the complexities involved in having several path planners to control a team of robots. To ensure safety, our MARL framework uses model predictive control (MPC) to prevent actions that could lead to collisions during training and execution. We demonstrate the effectiveness of our method in simulation and on real robots, achieving safe behavior-based cooperative navigation without using individual reference targets, with zero collisions, and faster target reaching compared to baselines. Finally, we study the impact of MPC safety filters on the learning process, revealing that we achieve faster convergence during training and we show that our approach can be safely deployed on real robots, even during early stages of the training.

arxiv情報

著者 Murad Dawood,Sicong Pan,Nils Dengler,Siqi Zhou,Angela P. Schoellig,Maren Bennewitz
発行日 2024-10-07 08:10:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク