Solving Multi-Agent Safe Optimal Control with Distributed Epigraph Form MARL

要約

マルチロボットシステムのタスクでは、多くの場合、ロボットが安全性を維持しながら、チームの目標を協力して完了する必要があります。
この問題は通常、制約されたマルコフ決定プロセス(CMDP)として正式化されます。これは、グローバルコストの最小化と、制約の平均違反をユーザー定義のしきい値を下回ることを目標としています。
実際のロボットアプリケーションに触発されて、安全性をゼロ制約違反として定義します。
CMDPを解決するために多くの安全なマルチエージェント補強学習(MARL)アルゴリズムが提案されていますが、これらのアルゴリズムはこの設定で不安定なトレーニングに悩まされています。
これに取り組むために、エピグラフフォームを使用して制約された最適化を使用して、トレーニングの安定性を改善し、集中型エピグラフ形式の問題を各エージェントが分散式で解決できることを証明します。
これにより、DEF-MARLという名前の新しい集中トレーニング分散実行MARLアルゴリズムが発生します。
2つの異なるシミュレーターにわたる8つの異なるタスクでのシミュレーション実験は、DEF-MARLが最高の全体的なパフォーマンスを達成し、安全上の制約を満たし、安定したトレーニングを維持することを示しています。
CrazyFlie Quadcoptersの実際のハードウェア実験は、他の方法と比較して複雑な共同タスクを完了するためにエージェントを安全に調整する能力を示しています。

要約(オリジナル)

Tasks for multi-robot systems often require the robots to collaborate and complete a team goal while maintaining safety. This problem is usually formalized as a constrained Markov decision process (CMDP), which targets minimizing a global cost and bringing the mean of constraint violation below a user-defined threshold. Inspired by real-world robotic applications, we define safety as zero constraint violation. While many safe multi-agent reinforcement learning (MARL) algorithms have been proposed to solve CMDPs, these algorithms suffer from unstable training in this setting. To tackle this, we use the epigraph form for constrained optimization to improve training stability and prove that the centralized epigraph form problem can be solved in a distributed fashion by each agent. This results in a novel centralized training distributed execution MARL algorithm named Def-MARL. Simulation experiments on 8 different tasks across 2 different simulators show that Def-MARL achieves the best overall performance, satisfies safety constraints, and maintains stable training. Real-world hardware experiments on Crazyflie quadcopters demonstrate the ability of Def-MARL to safely coordinate agents to complete complex collaborative tasks compared to other methods.

arxiv情報

著者 Songyuan Zhang,Oswin So,Mitchell Black,Zachary Serlin,Chuchu Fan
発行日 2025-04-21 20:34:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MA, cs.RO, math.OC パーマリンク