Dream to Fly: Model-Based Reinforcement Learning for Vision-Based Drone Flight

要約

自律型ドローンレースは、学習、認識、計画、制御の限界をテストするための挑戦的なロボットベンチマークとして注目を集めています。
熟練した人間のパイロットは、単一の搭載カメラからのリアルタイム フィードを制御コマンドに直接マッピングすることで、レース トラック内でドローンを機敏に飛行させることができます。
(明示的な状態推定を行わずに) ピクセルからコマンドへの直接的な制御ポリシーを試みる自律型ドローン レースの最近の研究は、観察空間を簡素化する中間表現に依存するか、模倣学習 (IL) を使用して広範なブートストラップを実行するかのいずれかに依存しています。
この論文では、ポリシーをゼロから学習するアプローチを紹介します。これにより、人間のパイロットが行うのと同じように、搭載カメラの生のピクセルを制御コマンドに直接マッピングすることで、クワッドローターがレース トラックを自律的に移動できるようになります。
モデルベースの強化学習~(RL)、特に DreamerV3 を活用することで、生のピクセル観測のみを使用してレーストラックを機敏に飛行できる視覚運動ポリシーをトレーニングします。
PPO などのモデルフリー RL 手法はこのような条件下で学習するのに苦労しますが、DreamerV3 は複雑な視覚運動動作を効率的に取得します。
さらに、私たちのポリシーはピクセル入力から直接学習するため、トレーニング プロセスをガイドするために以前の RL アプローチで採用されていた知覚を意識した報酬項はもはや必要ありません。
私たちの実験は、提案されたアプローチが機敏なクワッドローターにどのように展開できるかをシミュレーションと現実世界の飛行の両方で実証します。
このアプローチは、ビジョンベースの自律飛行の最前線を前進させ、モデルベースの RL が現実世界のロボット工学にとって有望な方向性であることを示しています。

要約(オリジナル)

Autonomous drone racing has risen as a challenging robotic benchmark for testing the limits of learning, perception, planning, and control. Expert human pilots are able to agilely fly a drone through a race track by mapping the real-time feed from a single onboard camera directly to control commands. Recent works in autonomous drone racing attempting direct pixel-to-commands control policies (without explicit state estimation) have relied on either intermediate representations that simplify the observation space or performed extensive bootstrapping using Imitation Learning (IL). This paper introduces an approach that learns policies from scratch, allowing a quadrotor to autonomously navigate a race track by directly mapping raw onboard camera pixels to control commands, just as human pilots do. By leveraging model-based reinforcement learning~(RL) – specifically DreamerV3 – we train visuomotor policies capable of agile flight through a race track using only raw pixel observations. While model-free RL methods such as PPO struggle to learn under these conditions, DreamerV3 efficiently acquires complex visuomotor behaviors. Moreover, because our policies learn directly from pixel inputs, the perception-aware reward term employed in previous RL approaches to guide the training process is no longer needed. Our experiments demonstrate in both simulation and real-world flight how the proposed approach can be deployed on agile quadrotors. This approach advances the frontier of vision-based autonomous flight and shows that model-based RL is a promising direction for real-world robotics.

arxiv情報

著者 Angel Romero,Ashwin Shenai,Ismail Geles,Elie Aljalbout,Davide Scaramuzza
発行日 2025-01-24 10:24:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, I.2.10 パーマリンク