ESVO2: Direct Visual-Inertial Odometry with Stereo Event Cameras

要約

イベントベース視覚オドメトリは、視覚的同時定位マッピング(SLAM)技術の一分野であり、ニューロモルフィック(つまりイベントベース)カメラの特別な動作原理を利用することにより、トラッキングとマッピングのサブ問題を(通常は並列に)解くことを目的としている。イベントデータは動きに依存する性質があるため、大規模な視点変更のもとでの明示的なデータ関連付け(すなわち、特徴マッチング)を確立することは困難であり、直接法がより合理的な選択となる。しかしながら、最先端の直接法は、マッピングサブ問題の計算複雑性の高さと、回転における特定の自由度(DoF)におけるカメラポーズ追跡の縮退によって制限されている。本論文では、直接パイプラインの上にイベントベースのステレオ視覚慣性オドメトリシステムを構築することにより、これらの問題に取り組む。具体的には、マッピング操作を高速化するために、イベントの局所的なダイナミクスに従って輪郭点をサンプリングする効率的な戦略を提案する。また、時間ステレオと静的ステレオの結果をマージすることにより、構造の完全性と局所的な滑らかさの点でマッピング性能を向上させる。一般的な6自由度運動のピッチ成分とヨー成分を復元する際のカメラポーズ追跡の縮退を回避するために、事前積分によりIMU計測値を運動プライアとして導入する。この目的のために、IMUバイアスを継続的に更新し、直線速度を予測するためのコンパクトなバックエンドを提案し、カメラポーズ追跡のための正確な運動予測を可能にする。その結果、このシステムは最新の高解像度イベントカメラで良好にスケールし、大規模な屋外環境における全地球測位精度の向上につながる。異なる解像度とシナリオを特徴とする5つの公開データセットを用いた広範な評価により、5つの最新手法に対する提案システムの優れた性能が正当化される。

要約(オリジナル)

Event-based visual odometry is a specific branch of visual Simultaneous Localization and Mapping (SLAM) techniques, which aims at solving tracking and mapping subproblems (typically in parallel), by exploiting the special working principles of neuromorphic (i.e., event-based) cameras. Due to the motion-dependent nature of event data, explicit data association (i.e., feature matching) under large-baseline view-point changes is difficult to establish, making direct methods a more rational choice. However, state-of-the-art direct methods are limited by the high computational complexity of the mapping sub-problem and the degeneracy of camera pose tracking in certain degrees of freedom (DoF) in rotation. In this paper, we tackle these issues by building an event-based stereo visual-inertial odometry system on top of a direct pipeline. Specifically, to speed up the mapping operation, we propose an efficient strategy for sampling contour points according to the local dynamics of events. The mapping performance is also improved in terms of structure completeness and local smoothness by merging the temporal stereo and static stereo results. To circumvent the degeneracy of camera pose tracking in recovering the pitch and yaw components of general 6-DoF motion, we introduce IMU measurements as motion priors via pre-integration. To this end, a compact back-end is proposed for continuously updating the IMU bias and predicting the linear velocity, enabling an accurate motion prediction for camera pose tracking. The resulting system scales well with modern high-resolution event cameras and leads to better global positioning accuracy in large-scale outdoor environments. Extensive evaluations on five publicly available datasets featuring different resolutions and scenarios justify the superior performance of the proposed system against five state-of-the-art methods.

arxiv情報

著者 Junkai Niu,Sheng Zhong,Xiuyuan Lu,Shaojie Shen,Guillermo Gallego,Yi Zhou
発行日 2025-03-03 05:31:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.RO パーマリンク