Zero-Shot Metric Depth with a Field-of-View Conditioned Diffusion Model

要約

単眼の深度推定方法は標準ベンチマークにおいて大幅な進歩を遂げていますが、ゼロショットメトリック深度推定は未解決のままです。
課題には、屋内と屋外のシーンの共同モデリングが含まれます。屋内と屋外のシーンでは、RGB と深度の大きく異なる分布が見られることが多く、未知のカメラ固有機能による深度スケールのあいまいさが含まれます。
最近の研究では、屋内と屋外のシーンを共同モデリングするための特殊なマルチヘッド アーキテクチャが提案されています。
対照的に、私たちは、屋内と屋外のシーンの共同モデリングを可能にする対数スケールの深度パラメーター化、スケールの曖昧さを処理するための視野 (FOV) の条件付けなどのいくつかの進歩を備えた、一般的なタスクに依存しない拡散モデルを提唱しています。
トレーニング中に FOV を合成的に強化し、トレーニング データセットの限定されたカメラ固有機能を超えて一般化します。
さらに、一般的なものよりも多様なトレーニング混合物と効率的な拡散パラメータ化を採用することにより、私たちの手法である DMD (Diffusion for Metric Depth) は、屋内ゼロショットで相対誤差 (REL) を 25%、33% 削減することができます。
少数のノイズ除去ステップのみを使用して、現在の SOTA よりもゼロショットの屋外データセットを削減します。
概要については、https://diffusion-vision.github.io/dmd を参照してください。

要約(オリジナル)

While methods for monocular depth estimation have made significant strides on standard benchmarks, zero-shot metric depth estimation remains unsolved. Challenges include the joint modeling of indoor and outdoor scenes, which often exhibit significantly different distributions of RGB and depth, and the depth-scale ambiguity due to unknown camera intrinsics. Recent work has proposed specialized multi-head architectures for jointly modeling indoor and outdoor scenes. In contrast, we advocate a generic, task-agnostic diffusion model, with several advancements such as log-scale depth parameterization to enable joint modeling of indoor and outdoor scenes, conditioning on the field-of-view (FOV) to handle scale ambiguity and synthetically augmenting FOV during training to generalize beyond the limited camera intrinsics in training datasets. Furthermore, by employing a more diverse training mixture than is common, and an efficient diffusion parameterization, our method, DMD (Diffusion for Metric Depth) achieves a 25\% reduction in relative error (REL) on zero-shot indoor and 33\% reduction on zero-shot outdoor datasets over the current SOTA using only a small number of denoising steps. For an overview see https://diffusion-vision.github.io/dmd

arxiv情報

著者 Saurabh Saxena,Junhwa Hur,Charles Herrmann,Deqing Sun,David J. Fleet
発行日 2023-12-20 18:27:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク