Self-Supervised Monocular Visual Drone Model Identification through Improved Occlusion Handling

要約

GPSが除去した環境で飛行する際のドローンには、エゴモーションの推定が不可欠です。
視覚ベースの方法は、飛行速度が上昇し、密接なオブジェクトが困難な視覚条件につながると、かなりの動きのぼやけと大きな閉塞を伴う困難な視覚条件につながります。
これに取り組むために、ビジョンは通常、ドローンモデルと慣性測定値を組み合わせた状態推定フィルターによって補完されます。
ただし、これらのドローンモデルは現在、外部のモーションキャプチャシステムからの地上の真実データを使用して、異なる環境やドローンにスケーラビリティを制限する監視された方法で学習されています。
この作業では、オンボードモノクラービデオおよびフライトコントローラーデータ(IMUおよびモーターフィードバック)のみを使用して、ニューラルネットワークベースのドローンモデルをトレーニングするための自己監視学習スキームを提案します。
これは、最初に自己教師の相対的なポーズ推定モデルをトレーニングすることで達成します。これは、ドローンモデルの教師として機能します。
これを障害物に近い高速で機能させるために、自己監視ポーズ推定モデルをトレーニングするための閉塞処理方法の改善を提案します。
この方法により、結果として得られる匂い測定の推定値の根平均角誤差は、平均15%減少します。
さらに、学生ニューラルドローンモデルは、オンボードデータから正常に取得できます。
教師である自己教師のビジョンベースのモデルと比較して、高速ではより正確になります。
ニューラルドローンモデルを従来のフィルターベースのVioシステム(Rovio)に統合することにより、ニューラルドローンモデルの値を実証し、障害物近くの攻撃的な3Dレース軌跡で優れた臭気測定の精度をもたらします。
自己監視されたエゴモーション推定の学習は、制御された高価なラボ環境と現実世界のドローンアプリケーションでの飛行との間のギャップを埋めるための重要なステップを表しています。
視覚モデルとドローンモデルの融合は、あらゆる環境のドローンで、より高いスピード飛行を可能にし、州の推定を改善します。

要約(オリジナル)

Ego-motion estimation is vital for drones when flying in GPS-denied environments. Vision-based methods struggle when flight speed increases and close-by objects lead to difficult visual conditions with considerable motion blur and large occlusions. To tackle this, vision is typically complemented by state estimation filters that combine a drone model with inertial measurements. However, these drone models are currently learned in a supervised manner with ground-truth data from external motion capture systems, limiting scalability to different environments and drones. In this work, we propose a self-supervised learning scheme to train a neural-network-based drone model using only onboard monocular video and flight controller data (IMU and motor feedback). We achieve this by first training a self-supervised relative pose estimation model, which then serves as a teacher for the drone model. To allow this to work at high speed close to obstacles, we propose an improved occlusion handling method for training self-supervised pose estimation models. Due to this method, the root mean squared error of resulting odometry estimates is reduced by an average of 15%. Moreover, the student neural drone model can be successfully obtained from the onboard data. It even becomes more accurate at higher speeds compared to its teacher, the self-supervised vision-based model. We demonstrate the value of the neural drone model by integrating it into a traditional filter-based VIO system (ROVIO), resulting in superior odometry accuracy on aggressive 3D racing trajectories near obstacles. Self-supervised learning of ego-motion estimation represents a significant step toward bridging the gap between flying in controlled, expensive lab environments and real-world drone applications. The fusion of vision and drone models will enable higher-speed flight and improve state estimation, on any drone in any environment.

arxiv情報

著者 Stavrow A. Bahnam,Christophe De Wagter,Guido C. H. E. de Croon
発行日 2025-04-30 14:38:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク