Bootstrapping Reinforcement Learning with Imitation for Vision-Based Agile Flight

要約

アジャイルクワッドローター飛行のための視覚運動ポリシーの学習には、主に高次元の視覚入力と正確で低遅延の制御の必要性によって引き起こされる非効率的なポリシー探索により、大きな困難が伴います。
これらの課題に対処するために、ビジョンベースの自律ドローン レースのタスクにおいて、強化学習 (RL) のパフォーマンスと模倣学習 (IL) のサンプル効率を組み合わせた新しいアプローチを提案します。
RL は、試行錯誤を通じて高性能コントローラーを学習するためのフレームワークを提供しますが、視覚入力の高次元性によるサンプル効率と計算需要という課題に直面しています。
逆に、IL は視覚的なエキスパートのデモンストレーションから効率的に学習しますが、エキスパートのパフォーマンスと状態分布によって制限されたままになります。
これらの制限を克服するために、私たちのポリシー学習フレームワークは両方のアプローチの長所を統合しています。
私たちのフレームワークには 3 つのフェーズが含まれています。特権状態情報を含む RL を使用して教師ポリシーをトレーニングし、IL を介して学生ポリシーに抽出し、RL を介して適応的に微調整します。
シミュレートされたシナリオと現実世界の両方のシナリオでテストしたところ、私たちのアプローチは、ゼロからの RL が失敗するシナリオでも学習できるだけでなく、堅牢性とパフォーマンスの両方で既存の IL 手法を上回り、視覚情報のみを使用してレースコース内でクアッドローターを首尾よくナビゲートできることがわかりました。

要約(オリジナル)

Learning visuomotor policies for agile quadrotor flight presents significant difficulties, primarily from inefficient policy exploration caused by high-dimensional visual inputs and the need for precise and low-latency control. To address these challenges, we propose a novel approach that combines the performance of Reinforcement Learning (RL) and the sample efficiency of Imitation Learning (IL) in the task of vision-based autonomous drone racing. While RL provides a framework for learning high-performance controllers through trial and error, it faces challenges with sample efficiency and computational demands due to the high dimensionality of visual inputs. Conversely, IL efficiently learns from visual expert demonstrations, but it remains limited by the expert’s performance and state distribution. To overcome these limitations, our policy learning framework integrates the strengths of both approaches. Our framework contains three phases: training a teacher policy using RL with privileged state information, distilling it into a student policy via IL, and adaptive fine-tuning via RL. Testing in both simulated and real-world scenarios shows our approach can not only learn in scenarios where RL from scratch fails but also outperforms existing IL methods in both robustness and performance, successfully navigating a quadrotor through a race course using only visual information.

arxiv情報

著者 Jiaxu Xing,Angel Romero,Leonard Bauersfeld,Davide Scaramuzza
発行日 2024-10-25 11:10:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク