要約
イベントカメラは、マルチビューステレオ深度推定と、高速照明条件でぼやけない3Dエッジを検出する能力があるため、マルチビューステレオ深度推定と同時ローカリゼーションとマッピング(SLAM)の有望な手段を提供します。
ただし、従来のカメラ向けに設計された従来のディープラーニングフレームワークは、イベントデータの非同期の流れのような性質と格闘しています。
単眼セットアップとステレオセットアップの両方でイベントカメラを使用して、ピクセルごとの深さ推定のためのスケーラブルで柔軟で適応性のあるフレームワークを提案します。
3Dシーン構造は格差空間画像(DSI)にエンコードされており、既知のカメラポーズを介して空間に逆投げるイベントによって得られる光線の空間密度を表します。
私たちのニューラルネットワークは、3D畳み込みと再発構造を組み合わせてDSIのローカルサブリージョンを処理し、深さ予測のための貴重なパターンを認識します。
ローカル処理により、完全な並列化を伴う迅速な推論が可能になり、カメラの解像度に関係なく、一定の超低モデルの複雑さとメモリコストが保証されます。
標準ベンチマーク(MVSECおよびDSECデータセット)の実験は、前例のない有効性を示しています。
(ii)ステレオデータに適用すると、すべての最先端(SOTA)アプローチを強く上回り、平均絶対誤差を少なくとも42%削減します。
(iii)私たちの方法では、少なくとも30%の絶対誤差の中央値が減少する一方で、深さの完全性を3倍以上増加させることもできます。
イベントデータの驚くべきパフォーマンスと効果的な処理を考えると、私たちのフレームワークは、イベントベースの深度推定とSLAMに深い学習を使用するための標準的なアプローチになる強力な可能性を秘めています。
プロジェクトページ:https://github.com/tub-rip/derd-net
要約(オリジナル)
Event cameras offer a promising avenue for multi-view stereo depth estimation and Simultaneous Localization And Mapping (SLAM) due to their ability to detect blur-free 3D edges at high-speed and over broad illumination conditions. However, traditional deep learning frameworks designed for conventional cameras struggle with the asynchronous, stream-like nature of event data, as their architectures are optimized for discrete, image-like inputs. We propose a scalable, flexible and adaptable framework for pixel-wise depth estimation with event cameras in both monocular and stereo setups. The 3D scene structure is encoded into disparity space images (DSIs), representing spatial densities of rays obtained by back-projecting events into space via known camera poses. Our neural network processes local subregions of the DSIs combining 3D convolutions and a recurrent structure to recognize valuable patterns for depth prediction. Local processing enables fast inference with full parallelization and ensures constant ultra-low model complexity and memory costs, regardless of camera resolution. Experiments on standard benchmarks (MVSEC and DSEC datasets) demonstrate unprecedented effectiveness: (i) using purely monocular data, our method achieves comparable results to existing stereo methods; (ii) when applied to stereo data, it strongly outperforms all state-of-the-art (SOTA) approaches, reducing the mean absolute error by at least 42%; (iii) our method also allows for increases in depth completeness by more than 3-fold while still yielding a reduction in median absolute error of at least 30%. Given its remarkable performance and effective processing of event-data, our framework holds strong potential to become a standard approach for using deep learning for event-based depth estimation and SLAM. Project page: https://github.com/tub-rip/DERD-Net
arxiv情報
著者 | Diego de Oliveira Hitzges,Suman Ghosh,Guillermo Gallego |
発行日 | 2025-04-22 12:58:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google