IDArb: Intrinsic Decomposition for Arbitrary Number of Input Views and Illuminations

要約

画像から幾何学的情報や材質情報を取得することは、コンピューター ビジョンとグラフィックスにおける基本的な課題のままです。
従来の最適化ベースの手法では、高密度のマルチビュー入力からジオメトリ、マテリアルの特性、環境照明を再構築するために何時間もの計算時間を必要とすることが多く、同時に照明とマテリアルの間の固有のあいまいさに依然として苦労しています。
一方、学習ベースのアプローチは、既存の 3D オブジェクト データセットからの豊富なマテリアルの事前情報を活用しますが、マルチビューの一貫性を維持するという課題に直面しています。
この論文では、さまざまな照明の下で任意の数の画像に対して固有の分解を実行するように設計された拡散ベースのモデルである IDArb を紹介します。
私たちの方法は、表面法線と材料特性に関して、正確かつマルチビューで一貫した推定を実現します。
これは、新しいクロスビュー、クロスドメイン アテンション モジュール、および照明強化されたビュー適応トレーニング戦略によって可能になります。
さらに、大規模なマルチビュー固有データとさまざまな照明条件下でのレンダリングを提供し、堅牢なトレーニングをサポートする新しいデータセットである ARB-Objaverse を紹介します。
広範な実験により、IDArb が質的にも量的にも最先端の方法よりも優れていることが実証されました。
さらに、私たちのアプローチは、単一画像の再照明、測光ステレオ、3D 再構成などの下流タスクの範囲を容易にし、リアルな 3D コンテンツ作成における幅広い用途を強調しています。

要約(オリジナル)

Capturing geometric and material information from images remains a fundamental challenge in computer vision and graphics. Traditional optimization-based methods often require hours of computational time to reconstruct geometry, material properties, and environmental lighting from dense multi-view inputs, while still struggling with inherent ambiguities between lighting and material. On the other hand, learning-based approaches leverage rich material priors from existing 3D object datasets but face challenges with maintaining multi-view consistency. In this paper, we introduce IDArb, a diffusion-based model designed to perform intrinsic decomposition on an arbitrary number of images under varying illuminations. Our method achieves accurate and multi-view consistent estimation on surface normals and material properties. This is made possible through a novel cross-view, cross-domain attention module and an illumination-augmented, view-adaptive training strategy. Additionally, we introduce ARB-Objaverse, a new dataset that provides large-scale multi-view intrinsic data and renderings under diverse lighting conditions, supporting robust training. Extensive experiments demonstrate that IDArb outperforms state-of-the-art methods both qualitatively and quantitatively. Moreover, our approach facilitates a range of downstream tasks, including single-image relighting, photometric stereo, and 3D reconstruction, highlighting its broad applications in realistic 3D content creation.

arxiv情報

著者 Zhibing Li,Tong Wu,Jing Tan,Mengchen Zhang,Jiaqi Wang,Dahua Lin
発行日 2024-12-16 18:52:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク