要約
現在の識別的深度推定方法では、ぼやけたアーティファクトが生成されることがよくありますが、生成アプローチでは、ノイズから深度への伝達の湾曲によりサンプリングが遅くなるという問題があります。
私たちの方法は、深度推定を画像と深度分布の間の直接トランスポートとして構成することで、これらの課題に対処します。
私たちはこの分野でフロー マッチングを初めて研究し、その補間軌跡が高いパフォーマンスを維持しながらトレーニングとサンプリングの両方の効率を向上させることを実証しました。
生成モデルには通常、広範なトレーニング データが必要ですが、事前トレーニングされた画像拡散モデルからの外部知識を統合することでこの依存関係を軽減し、異なる目的間でも効果的な転送を可能にします。
モデルのパフォーマンスをさらに向上させるために、合成データを採用し、野生の画像データセットの識別モデルによって生成された画像深度のペアを利用します。
生成モデルとして、私たちのモデルは深度の信頼性を確実に推定できるため、さらなる利点が得られます。
私たちのアプローチは、複雑な自然シーンの標準ベンチマークで競争力のあるゼロショット パフォーマンスを達成しながら、サンプリング効率を向上させ、トレーニングに最小限の合成データのみを必要とします。
要約(オリジナル)
Current discriminative depth estimation methods often produce blurry artifacts, while generative approaches suffer from slow sampling due to curvatures in the noise-to-depth transport. Our method addresses these challenges by framing depth estimation as a direct transport between image and depth distributions. We are the first to explore flow matching in this field, and we demonstrate that its interpolation trajectories enhance both training and sampling efficiency while preserving high performance. While generative models typically require extensive training data, we mitigate this dependency by integrating external knowledge from a pre-trained image diffusion model, enabling effective transfer even across differing objectives. To further boost our model performance, we employ synthetic data and utilize image-depth pairs generated by a discriminative model on an in-the-wild image dataset. As a generative model, our model can reliably estimate depth confidence, which provides an additional advantage. Our approach achieves competitive zero-shot performance on standard benchmarks of complex natural scenes while improving sampling efficiency and only requiring minimal synthetic data for training.
arxiv情報
著者 | Ming Gui,Johannes Schusterbauer,Ulrich Prestel,Pingchuan Ma,Dmytro Kotovenko,Olga Grebenkova,Stefan Andreas Baumann,Vincent Tao Hu,Björn Ommer |
発行日 | 2024-12-19 17:51:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google