要約
本論文では、乱雑な環境におけるドローンの機敏な飛行のための学習ベースのビジュアルプランナーを紹介する。提案するプランナーは、衝突のないウェイポイントをミリ秒単位で生成し、ドローンが複雑な環境で機敏な操縦を行うことを、知覚、マッピング、プランニングの各モジュールを個別に構築することなく可能にする。行動クローニング(BC)や強化学習(RL)などの学習ベースの手法は、視覚ナビゲーションにおいて有望な性能を示すが、依然として固有の限界に直面している。BCは限られた専門家の模倣による複合エラーの影響を受けやすく、RLは報酬関数の設計とサンプルの非効率性に苦労している。これらの限界に対処するため、本論文では高速視覚ナビゲーションのための逆強化学習(IRL)ベースのフレームワークを提案する。IRLを活用することで、シミュレーション環境との相互作用の回数を減らし、RLポリシーの頑健性を保ちつつ、高次元空間への対応能力を向上させることができる。モーション・プリミティブに基づく経路計画アルゴリズムは、様々な環境からの特権的な地図データとエキスパートデータセットを収集し、包括的なシナリオカバレッジを確保する。取得されたエキスパートデータセットと、エージェントとシミュレーション環境との相互作用から収集された学習者データセットの両方を活用することで、ロバストな報酬関数と政策が多様な状態にわたって学習される。提案手法はシミュレーション環境のみで学習されるが、追加の学習やチューニングを行うことなく、実世界のシナリオに直接適用することができる。提案手法の性能は、森林や様々な構造物を含むシミュレーション環境と実環境の両方で検証された。訓練されたポリシーは、実飛行実験において平均速度7m/s、最高速度8.8m/sを達成した。我々の知る限り、これはドローンの高速ビジュアルナビゲーションにIRLフレームワークを適用することに成功した最初の研究である。
要約(オリジナル)
This paper introduces a learning-based visual planner for agile drone flight in cluttered environments. The proposed planner generates collision-free waypoints in milliseconds, enabling drones to perform agile maneuvers in complex environments without building separate perception, mapping, and planning modules. Learning-based methods, such as behavior cloning (BC) and reinforcement learning (RL), demonstrate promising performance in visual navigation but still face inherent limitations. BC is susceptible to compounding errors due to limited expert imitation, while RL struggles with reward function design and sample inefficiency. To address these limitations, this paper proposes an inverse reinforcement learning (IRL)-based framework for high-speed visual navigation. By leveraging IRL, it is possible to reduce the number of interactions with simulation environments and improve capability to deal with high-dimensional spaces while preserving the robustness of RL policies. A motion primitive-based path planning algorithm collects an expert dataset with privileged map data from diverse environments, ensuring comprehensive scenario coverage. By leveraging both the acquired expert and learner dataset gathered from the agent’s interactions with the simulation environments, a robust reward function and policy are learned across diverse states. While the proposed method is trained in a simulation environment only, it can be directly applied to real-world scenarios without additional training or tuning. The performance of the proposed method is validated in both simulation and real-world environments, including forests and various structures. The trained policy achieves an average speed of 7 m/s and a maximum speed of 8.8 m/s in real flight experiments. To the best of our knowledge, this is the first work to successfully apply an IRL framework for high-speed visual navigation of drones.
arxiv情報
著者 | Minwoo Kim,Geunsik Bae,Jinwoo Lee,Woojae Shin,Changseung Kim,Myong-Yol Choi,Heejung Shin,Hyondong Oh |
発行日 | 2025-02-04 06:42:08+00:00 |
arxivサイト | arxiv_id(pdf) |