要約
単眼での奥行き推定は、コンピュータビジョンの基本的なタスクである。単一画像から3D奥行きを復元することは、幾何学的に非ポーズであり、シーン理解が必要であるため、ディープラーニングの台頭がブレークスルーをもたらしたことは驚くべきことではない。単眼の奥行き推定器の目覚ましい進歩は、比較的控えめなCNNから大規模なTransformerアーキテクチャまで、モデル容量の増加を反映している。それでもなお、単眼の奥行き推定器は、見慣れないコンテンツやレイアウトの画像を提示されたときに苦戦する傾向がある。なぜなら、視覚世界に関する知識は、学習中に見たデータによって制限され、新しい領域へのゼロショット汎化が困難だからである。これは、最近の生成的拡散モデルで捉えられる広範な事前分布を利用することで、より優れた、より一般化可能な奥行き推定が可能になるかどうかを探る動機付けとなる。我々は、安定拡散から派生し、その豊富な事前知識を保持する、アフィン不変な単眼深度推定法であるMarigoldを紹介する。この推定器は、単一のGPU上で、合成訓練データのみを用いて数日で微調整できる。幅広いデータセットで最先端の性能を発揮し、特定のケースでは20%以上の性能向上を実現しています。プロジェクトページ: https://marigoldmonodepth.github.io.
要約(オリジナル)
Monocular depth estimation is a fundamental computer vision task. Recovering 3D depth from a single image is geometrically ill-posed and requires scene understanding, so it is not surprising that the rise of deep learning has led to a breakthrough. The impressive progress of monocular depth estimators has mirrored the growth in model capacity, from relatively modest CNNs to large Transformer architectures. Still, monocular depth estimators tend to struggle when presented with images with unfamiliar content and layout, since their knowledge of the visual world is restricted by the data seen during training, and challenged by zero-shot generalization to new domains. This motivates us to explore whether the extensive priors captured in recent generative diffusion models can enable better, more generalizable depth estimation. We introduce Marigold, a method for affine-invariant monocular depth estimation that is derived from Stable Diffusion and retains its rich prior knowledge. The estimator can be fine-tuned in a couple of days on a single GPU using only synthetic training data. It delivers state-of-the-art performance across a wide range of datasets, including over 20% performance gains in specific cases. Project page: https://marigoldmonodepth.github.io.
arxiv情報
著者 | Bingxin Ke,Anton Obukhov,Shengyu Huang,Nando Metzger,Rodrigo Caye Daudt,Konrad Schindler |
発行日 | 2023-12-04 18:59:13+00:00 |
arxivサイト | arxiv_id(pdf) |