Monocular Depth Estimation using Diffusion Models

要約

高忠実度画像生成における最近の成功に触発されて、ノイズ除去拡散モデルを使用して単眼深度推定を定式化します。
そのために、ステップ アンロール ノイズ除去拡散、$L_1$ 損失、トレーニング中の深度インフィルなど、トレーニング データのノイズの多い不完全な深度マップが原因で発生する問題に対処するためのイノベーションを導入します。
教師ありトレーニング用の限られたデータの可用性に対処するために、自己教師ありの画像から画像への変換タスクで事前トレーニングを活用します。
一般的な損失とアーキテクチャを使用したアプローチの単純さにもかかわらず、DepthGen モデルは、屋内の NYU データセットで SOTA パフォーマンスを達成し、屋外の KITTI データセットで SOTA に近い結果を達成します。
さらに、マルチモーダル ポステリアを使用すると、DepthGen は (透明な表面などからの) 深さのあいまいさを自然に表現し、そのゼロ ショット パフォーマンスと深さ代入を組み合わせることで、テキストから 3D へのシンプルで効果的なパイプラインを実現します。
プロジェクトページ: https://depth-gen.github.io

要約(オリジナル)

We formulate monocular depth estimation using denoising diffusion models, inspired by their recent successes in high fidelity image generation. To that end, we introduce innovations to address problems arising due to noisy, incomplete depth maps in training data, including step-unrolled denoising diffusion, an $L_1$ loss, and depth infilling during training. To cope with the limited availability of data for supervised training, we leverage pre-training on self-supervised image-to-image translation tasks. Despite the simplicity of the approach, with a generic loss and architecture, our DepthGen model achieves SOTA performance on the indoor NYU dataset, and near SOTA results on the outdoor KITTI dataset. Further, with a multimodal posterior, DepthGen naturally represents depth ambiguity (e.g., from transparent surfaces), and its zero-shot performance combined with depth imputation, enable a simple but effective text-to-3D pipeline. Project page: https://depth-gen.github.io

arxiv情報

著者 Saurabh Saxena,Abhishek Kar,Mohammad Norouzi,David J. Fleet
発行日 2023-02-28 18:08:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク