Intrinsic Image Diffusion for Indoor Single-view Material Estimation

要約

屋内シーンの外観分解の生成モデルである Intrinsic Image Diffusion を紹介します。
単一の入力ビューが与えられた場合、アルベド、粗さ、金属マップとして表される複数の考えられる材料の説明をサンプリングします。
外観の分解は、照明とマテリアルのプロパティの間に固有のあいまいさと実際のデータセットがないため、コンピューター ビジョンにおいてかなりの課題を引き起こします。
この問題に対処するために、私たちは確率的定式化を提唱します。この定式化では、真の材料特性を直接予測しようとする代わりに、条件付き生成モデルを使用して解空間からサンプリングします。
さらに、大規模な実世界の画像でトレーニングされた最近の拡散モデルの強力な学習済み事前分布を利用することで、材質の推定に適応でき、実画像への一般化が大幅に向上することを示します。
私たちの方法は、より鮮明で、より一貫性があり、より詳細なマテリアルを生成し、最先端の方法よりも PSNR で $1.5dB$、アルベド予測で $45\%$ 優れた FID スコアを上回ります。
私たちは、合成データセットと現実世界のデータセットの両方での実験を通じて、アプローチの有効性を実証します。

要約(オリジナル)

We present Intrinsic Image Diffusion, a generative model for appearance decomposition of indoor scenes. Given a single input view, we sample multiple possible material explanations represented as albedo, roughness, and metallic maps. Appearance decomposition poses a considerable challenge in computer vision due to the inherent ambiguity between lighting and material properties and the lack of real datasets. To address this issue, we advocate for a probabilistic formulation, where instead of attempting to directly predict the true material properties, we employ a conditional generative model to sample from the solution space. Furthermore, we show that utilizing the strong learned prior of recent diffusion models trained on large-scale real-world images can be adapted to material estimation and highly improves the generalization to real images. Our method produces significantly sharper, more consistent, and more detailed materials, outperforming state-of-the-art methods by $1.5dB$ on PSNR and by $45\%$ better FID score on albedo prediction. We demonstrate the effectiveness of our approach through experiments on both synthetic and real-world datasets.

arxiv情報

著者 Peter Kocsis,Vincent Sitzmann,Matthias Nießner
発行日 2024-03-21 12:51:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR, I.2.10 パーマリンク