Collision Avoidance and Navigation for a Quadrotor Swarm Using End-to-end Deep Reinforcement Learning

要約

クアドローター制御のためのエンドツーエンドの深層強化学習(DRL)は、容易な展開、タスクの汎化、リアルタイム実行能力など、多くの利点を約束します。これまでのエンドツーエンドのDRLベースの手法では、単純で障害物のない環境で操縦する1台のクワッドローターやクワッドローターチームに学習したコントローラーを展開する能力を示してきました。しかし、障害物が加わると、可能な相互作用の数が指数関数的に増加するため、RLポリシーの学習が困難になります。本研究では、障害物のある環境でクワッドローター群を制御するためのエンドツーエンドのDRLアプローチを提案する。障害物が多い環境でのパフォーマンスを向上させるために、衝突エピソードをクリップしたカリキュラムと再生バッファをエージェントに提供する。我々は、近隣のロボットと障害物の相互作用に注意するための注意メカニズムを実装している。このメカニズムは、計算機制約の厳しいハードウェア上で展開される群行動のためのポリシーにおいて、初めて成功したデモンストレーションである。我々の研究は、実際のクワッドローターにゼロショットを転送するエンドツーエンドのDRLで訓練された隣人回避と障害物回避の制御ポリシーを学習する可能性を示した最初の研究である。我々のアプローチは、シミュレーションでは障害物密度80%の32台、実機展開では障害物密度20%の8台にスケールします。デモンストレーション動画はプロジェクトのウェブサイトhttps://sites.google.com/view/obst-avoid-swarm-rl。

要約(オリジナル)

End-to-end deep reinforcement learning (DRL) for quadrotor control promises many benefits — easy deployment, task generalization and real-time execution capability. Prior end-to-end DRL-based methods have showcased the ability to deploy learned controllers onto single quadrotors or quadrotor teams maneuvering in simple, obstacle-free environments. However, the addition of obstacles increases the number of possible interactions exponentially, thereby increasing the difficulty of training RL policies. In this work, we propose an end-to-end DRL approach to control quadrotor swarms in environments with obstacles. We provide our agents a curriculum and a replay buffer of the clipped collision episodes to improve performance in obstacle-rich environments. We implement an attention mechanism to attend to the neighbor robots and obstacle interactions – the first successful demonstration of this mechanism on policies for swarm behavior deployed on severely compute-constrained hardware. Our work is the first work that demonstrates the possibility of learning neighbor-avoiding and obstacle-avoiding control policies trained with end-to-end DRL that transfers zero-shot to real quadrotors. Our approach scales to 32 robots with 80% obstacle density in simulation and 8 robots with 20% obstacle density in physical deployment. Video demonstrations are available on the project website at: https://sites.google.com/view/obst-avoid-swarm-rl.

arxiv情報

著者 Zhehui Huang,Zhaojing Yang,Rahul Krupani,Baskın Şenbaşlar,Sumeet Batra,Gaurav S. Sukhatme
発行日 2024-05-06 00:10:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.MA, cs.RO パーマリンク