A Controllable Appearance Representation for Flexible Transfer and Editing

要約

非常にコンパクトで解き放たれた潜在空間内で、物質的な外観の解釈可能な表現を計算する方法を提示します。
この表現は、適応された因子を使用して、自己教師のやり方で学習されます。
慎重に設計された非標識データセットでモデルを訓練し、人間で生成されたラベルによって誘発される可能性のあるバイアスを回避します。
私たちのモデルは、明示的な監督がないにもかかわらず、物質的な外観と照明を効果的にコードすることにより、強力な解体と解釈可能性を示しています。
次に、軽量のIPアダプターをトレーニングするためのガイダンスとして表現を使用して、1つ以上の画像の外観をターゲットジオメトリに転送し、ユーザーが結果の外観をさらに編集できるようにする拡散パイプラインを条件付けます。
私たちのアプローチは、生成された結果をきれいに制御することを提供します。よく構成されたコンパクトな潜在スペースのおかげで、ユーザーは画像スペースの色相や光沢などの属性を直感的に操作して、望ましい最終的な外観を実現できます。

要約(オリジナル)

We present a method that computes an interpretable representation of material appearance within a highly compact, disentangled latent space. This representation is learned in a self-supervised fashion using an adapted FactorVAE. We train our model with a carefully designed unlabeled dataset, avoiding possible biases induced by human-generated labels. Our model demonstrates strong disentanglement and interpretability by effectively encoding material appearance and illumination, despite the absence of explicit supervision. Then, we use our representation as guidance for training a lightweight IP-Adapter to condition a diffusion pipeline that transfers the appearance of one or more images onto a target geometry, and allows the user to further edit the resulting appearance. Our approach offers fine-grained control over the generated results: thanks to the well-structured compact latent space, users can intuitively manipulate attributes such as hue or glossiness in image space to achieve the desired final appearance.

arxiv情報

著者 Santiago Jimenez-Navarro,Julia Guerrero-Viu,Belen Masia
発行日 2025-04-21 11:29:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR パーマリンク