要約
完全な360 {\ deg}の視野でシーンの理解を必要とするモバイルロボットアプリケーションには、全方向性深度知覚が不可欠です。
カメラベースのセットアップは、ステレオ深度推定を使用して、高価なアクティブセンシングに依存せずに密集した高解像度の深度マップを生成することにより、費用対効果の高いオプションを提供します。
ただし、実際のデータが不足しているため、既存の全方向ステレオマッチングアプローチは、多様な環境、深さ範囲、および照明条件にわたって限られた深度精度のみを実現します。
Dfi-Omnistereoを提示します。これは、反復的最適化ベースのステレオマッチングアーキテクチャ内で相対的な単眼深度推定のための大規模な事前訓練の基礎モデルを活用する新しい最新のステレオマッチング方法です。
スケール不変の微調整の前に、全方向性ステレオマッチングに相対的な単眼深度の特徴を利用するための専用の2段階トレーニング戦略を紹介します。
DFI-OMNISTEREOは、実際のHelvipadデータセットで最新の結果を達成し、以前の最良の全部ステレオ法と比較して格差MAEを約16%削減します。
要約(オリジナル)
Omnidirectional depth perception is essential for mobile robotics applications that require scene understanding across a full 360{\deg} field of view. Camera-based setups offer a cost-effective option by using stereo depth estimation to generate dense, high-resolution depth maps without relying on expensive active sensing. However, existing omnidirectional stereo matching approaches achieve only limited depth accuracy across diverse environments, depth ranges, and lighting conditions, due to the scarcity of real-world data. We present DFI-OmniStereo, a novel omnidirectional stereo matching method that leverages a large-scale pre-trained foundation model for relative monocular depth estimation within an iterative optimization-based stereo matching architecture. We introduce a dedicated two-stage training strategy to utilize the relative monocular depth features for our omnidirectional stereo matching before scale-invariant fine-tuning. DFI-OmniStereo achieves state-of-the-art results on the real-world Helvipad dataset, reducing disparity MAE by approximately 16% compared to the previous best omnidirectional stereo method.
arxiv情報
著者 | Jannik Endres,Oliver Hahn,Charles Corbière,Simone Schaub-Meyer,Stefan Roth,Alexandre Alahi |
発行日 | 2025-03-30 16:24:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google