Diffusion Models for Monocular Depth Estimation: Overcoming Challenging Conditions

要約

我々は、単一画像の深度推定タスクにおいて、困難な分布外データによってもたらされる複雑さに対処するために設計された新しいアプローチを提案します。
不利な要因がないために深度予測を容易にする画像から始めて、一連の課題と関連する深度情報を含む新しいユーザー定義のシーンを体系的に生成します。
これは、生成された画像とソース画像の間の 3D 構造の一貫性を維持しながら、テキストのプロンプトから高品質の画像コンテンツを合成することで知られる、奥行きを意識した制御を備えた最先端のテキストから画像への拡散モデルを活用することによって実現されます。
単眼深度ネットワークのその後の微調整は、私たちの戦略を使用して生成された画像と、単純で問題のないシーンでの独自の深度予測を考慮する自己蒸留プロトコルを通じて実行されます。
私たちの目的に合わせて調整されたベンチマークの実験により、私たちの提案の有効性と多用途性が実証されています。

要約(オリジナル)

We present a novel approach designed to address the complexities posed by challenging, out-of-distribution data in the single-image depth estimation task. Starting with images that facilitate depth prediction due to the absence of unfavorable factors, we systematically generate new, user-defined scenes with a comprehensive set of challenges and associated depth information. This is achieved by leveraging cutting-edge text-to-image diffusion models with depth-aware control, known for synthesizing high-quality image content from textual prompts while preserving the coherence of 3D structure between generated and source imagery. Subsequent fine-tuning of any monocular depth network is carried out through a self-distillation protocol that takes into account images generated using our strategy and its own depth predictions on simple, unchallenging scenes. Experiments on benchmarks tailored for our purposes demonstrate the effectiveness and versatility of our proposal.

arxiv情報

著者 Fabio Tosi,Pierluigi Zama Ramirez,Matteo Poggi
発行日 2024-07-23 17:59:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク