CatVersion: Concatenating Embeddings for Diffusion-Based Text-to-Image Personalization

要約

私たちは、少数の例を通じてパーソナライズされたコンセプトを学習する反転ベースの方法である CatVersion を提案します。
その後、ユーザーはテキスト プロンプトを利用して、パーソナライズされたコンセプトを具体化する画像を生成し、テキストから画像へのパーソナライゼーションを実現できます。
概念の希薄化や過剰適合を引き起こす可能性がある拡散モデルの単語埋め込み学習やパラメータ微調整を重視する既存のアプローチとは対照的に、私たちの方法では、拡散モデル内のテキストエンコーダの特徴密度の高い空間に埋め込みを連結してギャップを学習します。
パーソナライズされたコンセプトとその基本クラスの間で、パーソナライズされたコンセプトを復元しながら拡散モデルにおける事前知識を最大限に保存することを目的としています。
この目的を達成するために、まず画像生成プロセスにおけるテキスト エンコーダーの統合を分析し、エンコーダーの特徴密度の高い空間を特定します。
その後、この空間のキーと値の埋め込みを連結して、パーソナライズされたコンセプトとその基本クラスの間のギャップを学習します。
このようにして、連結された埋め込みは、最終的には元のアテンション出力上の残差として現れます。
パーソナライズされた画像生成の結果をより正確かつ公平に定量化するために、マスクに基づいて CLIP 画像の位置合わせスコアを改善します。
CatVersion は定性的および定量的に、パーソナライゼーションの概念をより忠実に復元し、より堅牢な編集を可能にします。

要約(オリジナル)

We propose CatVersion, an inversion-based method that learns the personalized concept through a handful of examples. Subsequently, users can utilize text prompts to generate images that embody the personalized concept, thereby achieving text-to-image personalization. In contrast to existing approaches that emphasize word embedding learning or parameter fine-tuning for the diffusion model, which potentially causes concept dilution or overfitting, our method concatenates embeddings on the feature-dense space of the text encoder in the diffusion model to learn the gap between the personalized concept and its base class, aiming to maximize the preservation of prior knowledge in diffusion models while restoring the personalized concepts. To this end, we first dissect the text encoder’s integration in the image generation process to identify the feature-dense space of the encoder. Afterward, we concatenate embeddings on the Keys and Values in this space to learn the gap between the personalized concept and its base class. In this way, the concatenated embeddings ultimately manifest as a residual on the original attention output. To more accurately and unbiasedly quantify the results of personalized image generation, we improve the CLIP image alignment score based on masks. Qualitatively and quantitatively, CatVersion helps to restore personalization concepts more faithfully and enables more robust editing.

arxiv情報

著者 Ruoyu Zhao,Mingrui Zhu,Shiyin Dong,Nannan Wang,Xinbo Gao
発行日 2023-11-24 17:55:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68U05, cs.CV, I.3.3 パーマリンク