要約
安定拡散モデルなどの高度な拡散ベースの Text-to-Image (T2I) モデルは、テキスト プロンプトのみを使用して多様で高品質の画像を生成する点で大きな進歩を遂げました。
ただし、有名でないユーザーが自分の ID (ID) 用にパーソナライズされた画像の生成を必要とする場合、T2I モデルは ID 関連の画像を正確に生成できません。
主な問題は、事前トレーニングされた T2I モデルが、新しい ID プロンプトとそれに対応するビジュアル コンテンツの間のマッピングを学習しないことです。
以前の方法では、顔領域を正確に適合できなかったか、T2I モデルの他の既存の概念との対話型生成機能が失われていました。
言い換えれば、シーン (「エッフェル塔」)、アクション (「バスケットボールを持っている」)、顔の属性などの他の概念を含む指定されたプロンプトに対して、T2I に調整された意味的忠実度の画像を生成することはできません。
(「目を閉じた」)。
このペーパーでは、セマンティック忠実度のパーソナライズされた生成のために、正確でインタラクティブな ID 埋め込みを安定拡散モデルに挿入することに焦点を当てます。
私たちは、顔ごとの領域フィッティングとセマンティック忠実度トークンの最適化という 2 つの観点からこの課題に取り組みます。
具体的には、まず注意の過剰適合問題を可視化し、顔の配置や背景などのIDに関係のない情報を絡めるのではなく、顔領域に適合するように顔ごとの注意喪失を提案します。
この重要なトリックにより、ID の精度と他の既存の概念とのインタラクティブな生成能力が大幅に向上します。
次に、1 つの ID 表現を、各トークンに 2 つの解きほぐされた特徴が含まれる、ステージごとの複数のトークンとして最適化します。
このテキスト条件付け空間の拡張により、意味的忠実度の制御が向上します。
広範な実験により、私たちの結果は以前の方法と比較して優れた ID 精度、テキストベースの操作能力、および一般化を示すことが検証されました。
要約(オリジナル)
Advanced diffusion-based Text-to-Image (T2I) models, such as the Stable Diffusion Model, have made significant progress in generating diverse and high-quality images using text prompts alone. However, when non-famous users require personalized image generation for their identities (IDs), the T2I models fail to accurately generate their ID-related images. The main problem is that pre-trained T2I models do not learn the mapping between the new ID prompts and their corresponding visual content. The previous methods either failed to accurately fit the face region or lost the interactive generative ability with other existing concepts in T2I models. In other words, they are unable to generate T2I-aligned and semantic-fidelity images for the given prompts with other concepts such as scenes (“Eiffel Tower”), actions (“holding a basketball”), and facial attributes (“eyes closed”). In this paper, we focus on inserting accurate and interactive ID embedding into the Stable Diffusion Model for semantic-fidelity personalized generation. We address this challenge from two perspectives: face-wise region fitting and semantic-fidelity token optimization. Specifically, we first visualize the attention overfit problem and propose a face-wise attention loss to fit the face region instead of entangling ID-unrelated information, such as face layout and background. This key trick significantly enhances the ID accuracy and interactive generative ability with other existing concepts. Then, we optimize one ID representation as multiple per-stage tokens where each token contains two disentangled features. This expansion of the textual conditioning space improves semantic-fidelity control. Extensive experiments validate that our results exhibit superior ID accuracy, text-based manipulation ability, and generalization compared to previous methods.
arxiv情報
著者 | Yang Li,Songlin Yang,Wei Wang,Jing Dong |
発行日 | 2024-03-22 14:00:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google