Collaborative Control for Geometry-Conditioned PBR Image Generation

要約

現在の 3D コンテンツ生成アプローチは、RGB 画像を出力する拡散モデルに基づいて構築されています。
ただし、最新のグラフィックス パイプラインでは、物理ベース レンダリング (PBR) マテリアル プロパティが必要です。
我々は、RGB 生成における測光の不正確さと、RGB から PBR を抽出する際の固有のあいまいさを回避して、PBR 画像分布を直接モデル化することを提案します。
クロスモーダル微調整のための既存のパラダイムは、データ不足と出力モダリティの高次元性の両方の理由から、PBR 生成には適していません。私たちは、凍結した RGB モデルを保持し、新しくトレーニングされた PBR モデルを次のように緊密にリンクすることで、両方の課題を克服します。
新しいクロスネットワーク通信パラダイム。
ベース RGB モデルは完全にフリーズされているため、提案された方法では微調整中に壊滅的な忘却の危険がなくなり、ベース RGB モデル用に事前トレーニングされた IPAdapter などの技術との互換性が維持されます。
設計の選択、データの疎性に対する堅牢性を検証し、広範な実験セクションを使用して既存のパラダイムと比較します。

要約(オリジナル)

Current 3D content generation approaches build on diffusion models that output RGB images. Modern graphics pipelines, however, require physically-based rendering (PBR) material properties. We propose to model the PBR image distribution directly, avoiding photometric inaccuracies in RGB generation and the inherent ambiguity in extracting PBR from RGB. Existing paradigms for cross-modal fine-tuning are not suited for PBR generation due to both a lack of data and the high dimensionality of the output modalities: we overcome both challenges by retaining a frozen RGB model and tightly linking a newly trained PBR model using a novel cross-network communication paradigm. As the base RGB model is fully frozen, the proposed method does not risk catastrophic forgetting during fine-tuning and remains compatible with techniques such as IPAdapter pretrained for the base RGB model. We validate our design choices, robustness to data sparsity, and compare against existing paradigms with an extensive experimental section.

arxiv情報

著者 Shimon Vainer,Mark Boss,Mathias Parger,Konstantin Kutsy,Dante De Nigris,Ciara Rowles,Nicolas Perony,Simon Donné
発行日 2024-02-20 11:33:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, I.4.0 パーマリンク