End-to-End Learned Event- and Image-based Visual Odometry

要約

ビジュアル オドメトリ (VO) は、特に惑星地形のような GPS が使用できない環境において、自律的なロボット ナビゲーションにとって重要です。
標準の RGB カメラは暗い場所や高速の動きでは困難ですが、イベントベースのカメラは高いダイナミック レンジと低い遅延を実現します。
ただし、非同期イベント データを同期フレームとシームレスに統合することは依然として困難です。
初のエンドツーエンド学習型イベントおよび画像ベースの VO システムである RAMP-VO を紹介します。
これは、既存の非同期エンコーダよりも 8 倍高速で 20% 精度が高い新しい Recurrent, Asynchronous, and Massively Parallel (RAMP) エンコーダを活用しています。
RAMP-VO はさらに、新しいポーズ予測技術を採用して、初期化のための将来のポーズを予測します。
RAMP-VO は、シミュレーションのみでトレーニングされているにもかかわらず、従来の現実世界のベンチマークだけでなく、新しく導入されたアポロやマラパートの着陸シーケンスでも、画像ベースの手法とイベントベースの手法をそれぞれ 52% と 20% 上回り、堅牢な着陸シーケンスへの道を切り開きます。
宇宙での非同期VO。

要約(オリジナル)

Visual Odometry (VO) is crucial for autonomous robotic navigation, especially in GPS-denied environments like planetary terrains. While standard RGB cameras struggle in low-light or high-speed motion, event-based cameras offer high dynamic range and low latency. However, seamlessly integrating asynchronous event data with synchronous frames remains challenging. We introduce RAMP-VO, the first end-to-end learned event- and image-based VO system. It leverages novel Recurrent, Asynchronous, and Massively Parallel (RAMP) encoders that are 8x faster and 20% more accurate than existing asynchronous encoders. RAMP-VO further employs a novel pose forecasting technique to predict future poses for initialization. Despite being trained only in simulation, RAMP-VO outperforms image- and event-based methods by 52% and 20%, respectively, on traditional, real-world benchmarks as well as newly introduced Apollo and Malapert landing sequences, paving the way for robust and asynchronous VO in space.

arxiv情報

著者 Roberto Pellerito,Marco Cannici,Daniel Gehrig,Joris Belhadj,Olivier Dubois-Matra,Massimo Casasco,Davide Scaramuzza
発行日 2023-09-18 17:12:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク