Nested Attention: Semantic-aware Attention Values for Concept Personalization

要約

多様なシーンやスタイルにおける特定の被写体の画像を生成するために、テキストから画像へのモデルをパーソナライズすることは、急速に進歩している分野である。現在のアプローチは、同一性の保持と入力テキストプロンプトとの整合性のバランスを保つという課題にしばしば直面する。被写体を表現するために単一のテキストトークンに依存する手法もあるが、これは表現力を制限する。一方、より豊かな表現を採用する手法もあるが、モデルの先行性を乱し、プロンプトとの整合性を低下させる。この研究では、リッチで表現力豊かな画像表現をモデルの既存のクロスアテンションレイヤーに注入する新しいメカニズムであるネステッドアテンションを導入する。我々の重要なアイデアは、生成された画像の各領域に関連する被写体の特徴を選択するように学習する入れ子の注意層から得られる、クエリ依存の被写体値を生成することである。これらの入れ子レイヤーをエンコーダベースのパーソナライズ手法に統合し、入力テキストプロンプトを遵守しながら高い同一性保持が可能であることを示す。我々のアプローチは一般的であり、様々なドメインで学習可能である。さらに、その事前保存性により、異なるドメインからの複数のパーソナライズされた被写体を1つの画像に組み合わせることができる。

要約(オリジナル)

Personalizing text-to-image models to generate images of specific subjects across diverse scenes and styles is a rapidly advancing field. Current approaches often face challenges in maintaining a balance between identity preservation and alignment with the input text prompt. Some methods rely on a single textual token to represent a subject, which limits expressiveness, while others employ richer representations but disrupt the model’s prior, diminishing prompt alignment. In this work, we introduce Nested Attention, a novel mechanism that injects a rich and expressive image representation into the model’s existing cross-attention layers. Our key idea is to generate query-dependent subject values, derived from nested attention layers that learn to select relevant subject features for each region in the generated image. We integrate these nested layers into an encoder-based personalization method, and show that they enable high identity preservation while adhering to input text prompts. Our approach is general and can be trained on various domains. Additionally, its prior preservation allows us to combine multiple personalized subjects from different domains in a single image.

arxiv情報

著者 Or Patashnik,Rinon Gal,Daniil Ostashev,Sergey Tulyakov,Kfir Aberman,Daniel Cohen-Or
発行日 2025-01-02 18:52:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.GR, cs.LG パーマリンク