Depth Any Camera: Zero-Shot Metric Depth Estimation from Any Camera


最近の深度推定方法は強力なゼロショット一般化を示していますが、さまざまな種類のカメラ、特に魚眼カメラや 360 度カメラなどの広い視野 (FoV) を備えたカメラで正確なメトリック深度を達成することは依然として大きな課題です。
このペーパーでは、さまざまな FoV を持つカメラを効果的に処理するために遠近法でトレーニングされたモデルを拡張する強力なゼロショット メトリック深度推定フレームワークである Depth Any Camera (DAC) について説明します。
このフレームワークは、新しいアプリケーションで使用される特定のカメラの種類に関係なく、既存のすべての 3D データを確実に利用できるように設計されています。
注目すべきことに、DAC は透視画像のみを対象としてトレーニングされていますが、特殊なトレーニング データを必要とせずに、魚眼カメラや 360 度カメラにシームレスに一般化されます。
DAC は、統一された画像表現として等方形投影 (ERP) を採用しており、多様な FoV を持つ画像の一貫した処理を可能にします。
その主要なコンポーネントには、ERP 空間での効率的なオンライン拡張のためのピッチを意識した画像から ERP への変換、広範囲の FoV にわたる効果的なトレーニングをサポートする FoV アライメント操作、およびトレーニングとトレーニング間の解像度の違いに対処するためのマルチ解像度データ拡張が含まれます。
DAC は最先端のゼロショット メトリック深度推定を実現し、複数の魚眼および 360 度データセットでデルタ 1 ($\delta_1$) の精度を以前のメトリック深度基礎モデルと比較して最大 50% 向上させ、堅牢性を実証します。


While recent depth estimation methods exhibit strong zero-shot generalization, achieving accurate metric depth across diverse camera types-particularly those with large fields of view (FoV) such as fisheye and 360-degree cameras-remains a significant challenge. This paper presents Depth Any Camera (DAC), a powerful zero-shot metric depth estimation framework that extends a perspective-trained model to effectively handle cameras with varying FoVs. The framework is designed to ensure that all existing 3D data can be leveraged, regardless of the specific camera types used in new applications. Remarkably, DAC is trained exclusively on perspective images but generalizes seamlessly to fisheye and 360-degree cameras without the need for specialized training data. DAC employs Equi-Rectangular Projection (ERP) as a unified image representation, enabling consistent processing of images with diverse FoVs. Its key components include a pitch-aware Image-to-ERP conversion for efficient online augmentation in ERP space, a FoV alignment operation to support effective training across a wide range of FoVs, and multi-resolution data augmentation to address resolution disparities between training and testing. DAC achieves state-of-the-art zero-shot metric depth estimation, improving delta-1 ($\delta_1$) accuracy by up to 50% on multiple fisheye and 360-degree datasets compared to prior metric depth foundation models, demonstrating robust generalization across camera types.


著者 Yuliang Guo,Sparsh Garg,S. Mahdi H. Miangoleh,Xinyu Huang,Liu Ren
発行日 2025-01-05 07:22:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク