Deep Visual Odometry with Events and Frames

要約

ビジュアル オドメトリ (VO) は、特に惑星地形のような GPS が使用できない環境において、自律的なロボット ナビゲーションにとって重要です。
堅牢性を向上させるために、最近のモデルベースの VO システムでは、標準カメラとイベントベースのカメラを組み合わせ始めています。
イベント カメラは暗い場所や高速の動きに優れていますが、標準カメラは高密度で追跡しやすい機能を備えています。
ただし、画像ベースおよびイベントベースの VO の分野は依然としてモデルベースの手法に主に依存しており、エンドツーエンドの学習ベースのアーキテクチャを活用した最近の画像のみの進歩を完全には統合していません。
2 つのモダリティをシームレスに統合することは、一方が非同期でもう一方が非同期であるという性質の違いにより依然として困難であり、より効果的な画像ベースおよびイベントベースの VO の可能性が制限されます。
初のエンドツーエンド学習画像およびイベントベースの VO システムである RAMP-VO を紹介します。
これは、非同期イベントと画像データを融合できる新しい Recurrent、Asynchronous、および Massively Parallel (RAMP) エンコーダーを活用し、既存のソリューションと比較して 8 倍高速な推論と 33% より正確な予測を提供します。
RAMP-VO は、シミュレーションのみでトレーニングされているにもかかわらず、新しく導入された Apollo および Malapert データセットや既存のベンチマークで以前の手法を上回っており、画像ベースおよびイベントベースの手法を 58.8% および 30.6% 改善し、堅牢で強力なデータセットへの道を開きます。
宇宙での非同期VO。

要約(オリジナル)

Visual Odometry (VO) is crucial for autonomous robotic navigation, especially in GPS-denied environments like planetary terrains. To improve robustness, recent model-based VO systems have begun combining standard and event-based cameras. While event cameras excel in low-light and high-speed motion, standard cameras provide dense and easier-to-track features. However, the field of image- and event-based VO still predominantly relies on model-based methods and is yet to fully integrate recent image-only advancements leveraging end-to-end learning-based architectures. Seamlessly integrating the two modalities remains challenging due to their different nature, one asynchronous, the other not, limiting the potential for a more effective image- and event-based VO. We introduce RAMP-VO, the first end-to-end learned image- and event-based VO system. It leverages novel Recurrent, Asynchronous, and Massively Parallel (RAMP) encoders capable of fusing asynchronous events with image data, providing 8x faster inference and 33% more accurate predictions than existing solutions. Despite being trained only in simulation, RAMP-VO outperforms previous methods on the newly introduced Apollo and Malapert datasets, and on existing benchmarks, where it improves image- and event-based methods by 58.8% and 30.6%, paving the way for robust and asynchronous VO in space.

arxiv情報

著者 Roberto Pellerito,Marco Cannici,Daniel Gehrig,Joris Belhadj,Olivier Dubois-Matra,Massimo Casasco,Davide Scaramuzza
発行日 2024-09-10 17:03:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク