要約
以前のマテリアル作成方法では、主に再構成ベースの方法が現実世界の測定に依存し、生成ベースの方法が比較的小さなマテリアル データセットでトレーニングされていたため、多様な結果を生成するには限界がありました。
これらの課題に対処するために、我々は、テキストとマルチモーダル コントロールによって空間的に変化する外観プロパティを作成するように設計された新しい拡散ベースの生成フレームワークである DreamPBR を提案し、マテリアル生成における高い制御性と多様性を提供します。
多様で高品質な PBR マテリアル生成を実現する鍵は、数十億のテキストと画像のペアでトレーニングされた最近の大規模ビジョン言語モデルの機能と、数百の PBR マテリアル サンプルから導出されたマテリアル事前分布の機能を統合することにあります。
新しいマテリアルの潜在拡散モデル (LDM) を利用して、アルベド マップと対応する潜在空間の間のマッピングを確立します。
次に、潜在表現は、レンダリング対応 PBR デコーダを使用して完全な SVBRDF パラメータ マップにデコードされます。
私たちの方法は、円形パディングによる畳み込みによるタイル化可能な生成をサポートします。
さらに、マテリアル LDM の制御機能を強化するために、ピクセル位置合わせガイダンス、スタイル画像ガイダンス、3D 形状ガイダンスを含むマルチモーダル ガイダンス モジュールを導入します。
私たちは、マテリアル作成における DreamPBR の有効性を実証し、制御可能な幅広い生成および編集アプリケーションにおけるその多用途性と使いやすさを示します。
要約(オリジナル)
Prior material creation methods had limitations in producing diverse results mainly because reconstruction-based methods relied on real-world measurements and generation-based methods were trained on relatively small material datasets. To address these challenges, we propose DreamPBR, a novel diffusion-based generative framework designed to create spatially-varying appearance properties guided by text and multi-modal controls, providing high controllability and diversity in material generation. Key to achieving diverse and high-quality PBR material generation lies in integrating the capabilities of recent large-scale vision-language models trained on billions of text-image pairs, along with material priors derived from hundreds of PBR material samples. We utilize a novel material Latent Diffusion Model (LDM) to establish the mapping between albedo maps and the corresponding latent space. The latent representation is then decoded into full SVBRDF parameter maps using a rendering-aware PBR decoder. Our method supports tileable generation through convolution with circular padding. Furthermore, we introduce a multi-modal guidance module, which includes pixel-aligned guidance, style image guidance, and 3D shape guidance, to enhance the control capabilities of the material LDM. We demonstrate the effectiveness of DreamPBR in material creation, showcasing its versatility and user-friendliness on a wide range of controllable generation and editing applications.
arxiv情報
著者 | Linxuan Xin,Zheng Zhang,Jinfu Wei,Wei Gao,Duan Gao |
発行日 | 2024-07-01 14:43:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google