Multi-UAV Behavior-based Formation with Static and Dynamic Obstacles Avoidance via Reinforcement Learning

要約

実用化には複数の無人航空機 (UAV) の編隊制御が不可欠です。
この論文では、指向性飛行中に静的および動的障害物を回避しながら、行動ベースの UAV フォーメーションのタスクに取り組みます。
多目的最適化、大規模な探索空間、シミュレーションと現実のギャップという課題に取り組むための 2 段階の強化学習 (RL) トレーニング パイプラインを紹介します。
第 1 段階では、すべてのタスク目標を同時にバランスさせる線形効用関数を単純化されたシナリオで検索します。一方、第 2 段階では、大規模な探索空間をナビゲートするためのカリキュラム学習を利用して、複雑なシナリオで効用関数を適用します。
さらに、注意ベースの観測エンコーダを適用して、隊列の維持を強化し、さまざまな障害物の量を管理します。
シミュレーションと現実世界での実験では、静的障害物、動的障害物、および混合障害物が存在するシナリオにおける無衝突率と編隊維持に関して、私たちの方法が計画ベースおよび RL ベースのベースラインよりも優れていることが実証されています。

要約(オリジナル)

Formation control of multiple Unmanned Aerial Vehicles (UAVs) is vital for practical applications. This paper tackles the task of behavior-based UAV formation while avoiding static and dynamic obstacles during directed flight. We present a two-stage reinforcement learning (RL) training pipeline to tackle the challenge of multi-objective optimization, large exploration spaces, and the sim-to-real gap. The first stage searches in a simplified scenario for a linear utility function that balances all task objectives simultaneously, whereas the second stage applies the utility function in complex scenarios, utilizing curriculum learning to navigate large exploration spaces. Additionally, we apply an attention-based observation encoder to enhance formation maintenance and manage varying obstacle quantity. Experiments in simulation and real world demonstrate that our method outperforms planning-based and RL-based baselines regarding collision-free rate and formation maintenance in scenarios with static, dynamic, and mixed obstacles.

arxiv情報

著者 Yuqing Xie,Chao Yu,Hongzhi Zang,Feng Gao,Wenhao Tang,Jingyi Huang,Jiayu Chen,Botian Xu,Yi Wu,Yu Wang
発行日 2024-10-24 07:31:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク