Safe Multi-Agent Reinforcement Learning for Formation Control without Individual Reference Targets

要約

近年、自律システムの進歩と複数の車両が多様なミッションを実行する必要性を背景に、無人車両の編隊制御に大きな関心が集まっています。
この論文では、移動ロボットの行動ベースのフォーメーション制御の問題に取り組みます。安全なマルチエージェント強化学習(MARL)を使用して、訓練および実行中のすべての衝突を排除することでロボットの安全性を確保します。
安全性を確保するために、分散モデルの予測制御安全フィルターを実装して、危険なアクションを無効にしました。
私たちは、ロボットの個別の参照ターゲットを持たずに行動ベースのフォーメーションを達成することに重点を置き、代わりにフォーメーションの重心のターゲットを使用します。
この定式化により、実際のロボットへのフォーメーション制御の展開が容易になり、より多くのロボットへのアプローチの拡張性が向上します。
このタスクは、ロボットの特定の個別の参照ターゲットと、各ロボットの他のロボットに対する相対位置に関する情報がなければ、最適化ベースのコントローラーを通じて対処することはできません。
そのため、私たちの定式化では MARL を使用してロボットをトレーニングします。
さらに、エージェント間の相互作用を説明するために、注意ベースの批評家を使用してトレーニング プロセスを改善します。
私たちはエージェントをシミュレーションでトレーニングし、その後、実際の Turtlebot ロボットで私たちのアプローチの結果として生じる動作を実証します。
エージェントが持つ情報が非常に限られているにもかかわらず、望ましい動作を安全に達成できることを示します。

要約(オリジナル)

In recent years, formation control of unmanned vehicles has received considerable interest, driven by the progress in autonomous systems and the imperative for multiple vehicles to carry out diverse missions. In this paper, we address the problem of behavior-based formation control of mobile robots, where we use safe multi-agent reinforcement learning~(MARL) to ensure the safety of the robots by eliminating all collisions during training and execution. To ensure safety, we implemented distributed model predictive control safety filters to override unsafe actions. We focus on achieving behavior-based formation without having individual reference targets for the robots, and instead use targets for the centroid of the formation. This formulation facilitates the deployment of formation control on real robots and improves the scalability of our approach to more robots. The task cannot be addressed through optimization-based controllers without specific individual reference targets for the robots and information about the relative locations of each robot to the others. That is why, for our formulation we use MARL to train the robots. Moreover, in order to account for the interactions between the agents, we use attention-based critics to improve the training process. We train the agents in simulation and later on demonstrate the resulting behavior of our approach on real Turtlebot robots. We show that despite the agents having very limited information, we can still safely achieve the desired behavior.

arxiv情報

著者 Murad Dawood,Sicong Pan,Nils Dengler,Siqi Zhou,Angela P. Schoellig,Maren Bennewitz
発行日 2023-12-20 09:23:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク