MetricGold: Leveraging Text-To-Image Latent Diffusion Models for Metric Depth Estimation

要約

単一の画像からメトリック深度を回復することは、コンピューター ビジョンにおける基本的な課題であり、シーンの理解と正確なスケーリングの両方が必要です。
深層学習は高度な単眼深度推定を備えていますが、現在のモデルは、特にゼロショット シナリオやスケールエルゴディック メトリック深度を予測する場合、見慣れないシーンやレイアウトに苦労することがよくあります。
我々は、生成拡散モデルの豊富な事前分布を利用してメトリック深度推定を改善する新しいアプローチである MetricGold を紹介します。
MariGold、DDVM、および Depth Anything V2 のそれぞれにおける最近の進歩に基づいて構築された私たちの手法は、潜在拡散、対数スケールのメトリック深さ表現、および合成データ トレーニングを組み合わせています。
MetricGold は、HyperSIM、VirtualKitti、TartanAir からの写真のようにリアルな合成データを使用して、2 日以内に 1 台の RTX 3090 で効率的なトレーニングを実現します。
私たちの実験は、多様なデータセットにわたる堅牢な一般化を実証し、既存のアプローチと比較して、より鮮明で高品質のメトリクス深度推定を生成します。

要約(オリジナル)

Recovering metric depth from a single image remains a fundamental challenge in computer vision, requiring both scene understanding and accurate scaling. While deep learning has advanced monocular depth estimation, current models often struggle with unfamiliar scenes and layouts, particularly in zero-shot scenarios and when predicting scale-ergodic metric depth. We present MetricGold, a novel approach that harnesses generative diffusion model’s rich priors to improve metric depth estimation. Building upon recent advances in MariGold, DDVM and Depth Anything V2 respectively, our method combines latent diffusion, log-scaled metric depth representation, and synthetic data training. MetricGold achieves efficient training on a single RTX 3090 within two days using photo-realistic synthetic data from HyperSIM, VirtualKitti, and TartanAir. Our experiments demonstrate robust generalization across diverse datasets, producing sharper and higher quality metric depth estimates compared to existing approaches.

arxiv情報

著者 Ansh Shah,K Madhava Krishna
発行日 2024-12-05 14:51:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR, cs.RO パーマリンク