BetterDepth: Plug-and-Play Diffusion Refiner for Zero-Shot Monocular Depth Estimation

要約

大規模なデータセットでトレーニングすることにより、ゼロショット単眼深度推定 (MDE) 手法は実際の環境では堅牢なパフォーマンスを示しますが、詳細が不十分になることがよくあります。
最近の拡散ベースの MDE アプローチは詳細を抽出する優れた能力を示しますが、多様性の低い 3D データでトレーニングされた以前のジオメトリに挑戦する幾何学的に複雑なシーンでは困難を伴います。
両方の世界の補完的なメリットを活用するために、細部をキャプチャしながら幾何学的に正しいアフィン不変 MDE を達成する BetterDepth を提案します。
具体的には、BetterDepth は条件付き拡散ベースのリファイナーであり、事前トレーニングされた MDE モデルからの予測を深度コンディショニングとして取得し、グローバルな深度レイアウトが適切にキャプチャされ、入力画像に基づいて詳細を反復的にリファインします。
このようなリファイナーのトレーニングのために、BetterDepth がきめ細かいシーンの詳細を追加することを学習しながら深度調整に忠実であり続けることを保証するために、グローバル プリアライメントおよびローカル パッチ マスキング手法を提案します。
BetterDepth は、小規模な合成データセットでの効率的なトレーニングにより、多様な公開データセットや実際のシーンで最先端のゼロショット MDE パフォーマンスを実現します。
さらに、BetterDepth は、さらなる再トレーニングを行わずに、プラグアンドプレイ方式で他の MDE モデルのパフォーマンスを向上させることができます。

要約(オリジナル)

By training over large-scale datasets, zero-shot monocular depth estimation (MDE) methods show robust performance in the wild but often suffer from insufficient detail. Although recent diffusion-based MDE approaches exhibit a superior ability to extract details, they struggle in geometrically complex scenes that challenge their geometry prior, trained on less diverse 3D data. To leverage the complementary merits of both worlds, we propose BetterDepth to achieve geometrically correct affine-invariant MDE while capturing fine details. Specifically, BetterDepth is a conditional diffusion-based refiner that takes the prediction from pre-trained MDE models as depth conditioning, in which the global depth layout is well-captured, and iteratively refines details based on the input image. For the training of such a refiner, we propose global pre-alignment and local patch masking methods to ensure BetterDepth remains faithful to the depth conditioning while learning to add fine-grained scene details. With efficient training on small-scale synthetic datasets, BetterDepth achieves state-of-the-art zero-shot MDE performance on diverse public datasets and on in-the-wild scenes. Moreover, BetterDepth can improve the performance of other MDE models in a plug-and-play manner without further re-training.

arxiv情報

著者 Xiang Zhang,Bingxin Ke,Hayko Riemenschneider,Nando Metzger,Anton Obukhov,Markus Gross,Konrad Schindler,Christopher Schroers
発行日 2024-11-06 14:58:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク