U-VAP: User-specified Visual Appearance Personalization via Decoupled Self Augmentation

要約

コンセプトのパーソナライゼーション手法により、大規模なテキストから画像へのモデルが特定の主題 (オブジェクト/ポーズ/3D モデルなど) を学習し、新しいコンテキストでレンディションを合成できるようになります。
画像参照が視覚的属性に大きく偏っていることを考慮すると、最先端のパーソナライゼーション モデルは対象全体に過剰適合する傾向があり、ピクセル空間内の視覚的特徴を解きほぐすことができません。
この研究では、より挑戦的な設定、つまりきめ細かい外観のパーソナライゼーションを提案しました。
既存の方法とは異なり、ユーザーが希望する属性を説明する文章を入力できるようにします。
ユーザー指定の視覚的属性を学習するために、ターゲット関連サンプルと非ターゲットサンプルを生成する、新しい分離された自己拡張戦略が提案されています。
これらの拡張データにより、無関係な属性の影響を軽減しながら、ターゲット属性についてのモデルの理解を改善することができます。
推論段階では、学習されたターゲットと非ターゲットの埋め込みを通じて意味空間の調整が行われ、ターゲット属性のもつれの解消がさらに強化されます。
SOTA パーソナライゼーション手法を使用したさまざまな種類の視覚属性に関する広範な実験により、提案された手法が新しいコンテキストでターゲットの視覚的外観を模倣し、パーソナライゼーションの制御性と柔軟性が向上する能力が示されています。

要約(オリジナル)

Concept personalization methods enable large text-to-image models to learn specific subjects (e.g., objects/poses/3D models) and synthesize renditions in new contexts. Given that the image references are highly biased towards visual attributes, state-of-the-art personalization models tend to overfit the whole subject and cannot disentangle visual characteristics in pixel space. In this study, we proposed a more challenging setting, namely fine-grained visual appearance personalization. Different from existing methods, we allow users to provide a sentence describing the desired attributes. A novel decoupled self-augmentation strategy is proposed to generate target-related and non-target samples to learn user-specified visual attributes. These augmented data allow for refining the model’s understanding of the target attribute while mitigating the impact of unrelated attributes. At the inference stage, adjustments are conducted on semantic space through the learned target and non-target embeddings to further enhance the disentanglement of target attributes. Extensive experiments on various kinds of visual attributes with SOTA personalization methods show the ability of the proposed method to mimic target visual appearance in novel contexts, thus improving the controllability and flexibility of personalization.

arxiv情報

著者 You Wu,Kean Liu,Xiaoyue Mi,Fan Tang,Juan Cao,Jintao Li
発行日 2024-03-29 15:20:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク