要約
画像から幾何学的情報と材料情報をキャプチャすることは、コンピュータービジョンとグラフィックスの根本的な課題のままです。
従来の最適化ベースの方法は、照明と材料の間の固有の曖昧さに苦しんでいる一方で、密なマルチビュー入力からの幾何学、材料特性、および環境照明を再構築するために数時間の計算時間を必要とすることがよくあります。
一方、学習ベースのアプローチは、既存の3Dオブジェクトデータセットからの豊富な材料の事前を活用していますが、マルチビューの一貫性を維持する際に課題に直面しています。
この論文では、さまざまな照明の下で任意の数の画像で固有の分解を実行するように設計された拡散ベースのモデルであるIdarbを紹介します。
私たちの方法は、表面の正常と材料特性に関する正確でマルチビューの一貫した推定を実現します。
これは、新しいクロスビュー、クロスドメインの注意モジュール、および照明を備えたビューに適したトレーニング戦略を通じて可能になります。
さらに、ARB-Objaverseを導入します。これは、多様な照明条件の下で大規模なマルチビューの固有データとレンダリングを提供し、堅牢なトレーニングをサポートする新しいデータセットです。
広範な実験は、Idarbが定性的および定量的に最新の方法を上回ることを示しています。
さらに、当社のアプローチは、シングルイメージの学習、測光ステレオ、3D再構成など、さまざまなダウンストリームタスクを促進し、現実的な3Dコンテンツ作成における幅広いアプリケーションを強調しています。
要約(オリジナル)
Capturing geometric and material information from images remains a fundamental challenge in computer vision and graphics. Traditional optimization-based methods often require hours of computational time to reconstruct geometry, material properties, and environmental lighting from dense multi-view inputs, while still struggling with inherent ambiguities between lighting and material. On the other hand, learning-based approaches leverage rich material priors from existing 3D object datasets but face challenges with maintaining multi-view consistency. In this paper, we introduce IDArb, a diffusion-based model designed to perform intrinsic decomposition on an arbitrary number of images under varying illuminations. Our method achieves accurate and multi-view consistent estimation on surface normals and material properties. This is made possible through a novel cross-view, cross-domain attention module and an illumination-augmented, view-adaptive training strategy. Additionally, we introduce ARB-Objaverse, a new dataset that provides large-scale multi-view intrinsic data and renderings under diverse lighting conditions, supporting robust training. Extensive experiments demonstrate that IDArb outperforms state-of-the-art methods both qualitatively and quantitatively. Moreover, our approach facilitates a range of downstream tasks, including single-image relighting, photometric stereo, and 3D reconstruction, highlighting its broad applications in realistic 3D content creation.
arxiv情報
著者 | Zhibing Li,Tong Wu,Jing Tan,Mengchen Zhang,Jiaqi Wang,Dahua Lin |
発行日 | 2025-03-19 15:02:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google