CoRe: Context-Regularized Text Embedding Learning for Text-to-Image Personalization

要約

テキストから画像へのパーソナライゼーションの最近の進歩により、ユーザーが提供するコンセプトに合わせて高品質で制御可能な画像合成が可能になりました。
ただし、既存の方法では、アイデンティティの保持とテキストの配置のバランスを取るのに依然として苦労しています。
私たちのアプローチは、プロンプトに合わせた画像を生成するには、プロンプトの正確な意味論的な理解が必要であるという事実に基づいています。これには、CLIP テキスト エンコーダー内で新しい概念とその周囲のコンテキスト トークンの間の相互作用を正確に処理することが含まれます。
これに対処するために、私たちは新しい概念をテキスト エンコーダーの入力埋め込みスペースに適切に埋め込み、既存のトークンとのシームレスな統合を可能にすることを目指しています。
Context Regularization (CoRe) を導入します。これは、プロンプト内のコンテキスト トークンを正規化することで、新しい概念のテキスト埋め込みの学習を強化します。
これは、新しい概念のテキスト埋め込みが正しく学習された場合にのみ、コンテキスト トークンに対するテキスト エンコーダーの適切な出力ベクトルが達成できるという洞察に基づいています。
CoRe は、対応する画像を生成することなく任意のプロンプトに適用できるため、学習されたテキストの埋め込みの一般化が向上します。
さらに、CoRe は、特定のプロンプトの生成をさらに強化するテスト時間の最適化手法として機能します。
包括的な実験により、私たちの方法がアイデンティティの保持とテキストの配置の両方においていくつかのベースライン方法よりも優れていることが実証されました。
コードは公開されます。

要約(オリジナル)

Recent advances in text-to-image personalization have enabled high-quality and controllable image synthesis for user-provided concepts. However, existing methods still struggle to balance identity preservation with text alignment. Our approach is based on the fact that generating prompt-aligned images requires a precise semantic understanding of the prompt, which involves accurately processing the interactions between the new concept and its surrounding context tokens within the CLIP text encoder. To address this, we aim to embed the new concept properly into the input embedding space of the text encoder, allowing for seamless integration with existing tokens. We introduce Context Regularization (CoRe), which enhances the learning of the new concept’s text embedding by regularizing its context tokens in the prompt. This is based on the insight that appropriate output vectors of the text encoder for the context tokens can only be achieved if the new concept’s text embedding is correctly learned. CoRe can be applied to arbitrary prompts without requiring the generation of corresponding images, thus improving the generalization of the learned text embedding. Additionally, CoRe can serve as a test-time optimization technique to further enhance the generations for specific prompts. Comprehensive experiments demonstrate that our method outperforms several baseline methods in both identity preservation and text alignment. Code will be made publicly available.

arxiv情報

著者 Feize Wu,Yun Pang,Junyi Zhang,Lianyu Pang,Jian Yin,Baoquan Zhao,Qing Li,Xudong Mao
発行日 2024-08-28 16:27:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク