要約
Text-to-image (T2I) パーソナライゼーションにより、ユーザーは自然言語プロンプトで独自のビジュアルコンセプトを組み合わせて、クリエイティブな画像生成プロセスをガイドできます。
最近、エンコーダベースの技術が T2I パーソナライゼーションのための新しい効果的なアプローチとして登場し、複数の画像の必要性や長いトレーニング時間を削減します。
ただし、既存のエンコーダのほとんどは単一クラスのドメインに限定されているため、多様な概念を処理する能力が妨げられています。
この研究では、特殊なデータセットやパーソナライズされた概念に関する事前情報を必要としない、ドメインに依存しない方法を提案します。
予測されたトークンを最も近い既存の CLIP トークンに向けてプッシュすることで、予測された埋め込みを潜在空間の編集可能領域の近くに保ちながら、ターゲット概念の特性に対する高い忠実度を維持する、新しい対照ベースの正則化手法を導入します。
私たちの実験結果は、私たちのアプローチの有効性を実証し、学習されたトークンが非正規化モデルによって予測されたトークンよりもどのように意味論的であるかを示しています。
これにより、以前の方法よりも柔軟でありながら、最先端のパフォーマンスを実現する、より優れた表現が可能になります。
要約(オリジナル)
Text-to-image (T2I) personalization allows users to guide the creative image generation process by combining their own visual concepts in natural language prompts. Recently, encoder-based techniques have emerged as a new effective approach for T2I personalization, reducing the need for multiple images and long training times. However, most existing encoders are limited to a single-class domain, which hinders their ability to handle diverse concepts. In this work, we propose a domain-agnostic method that does not require any specialized dataset or prior information about the personalized concepts. We introduce a novel contrastive-based regularization technique to maintain high fidelity to the target concept characteristics while keeping the predicted embeddings close to editable regions of the latent space, by pushing the predicted tokens toward their nearest existing CLIP tokens. Our experimental results demonstrate the effectiveness of our approach and show how the learned tokens are more semantic than tokens predicted by unregularized models. This leads to a better representation that achieves state-of-the-art performance while being more flexible than previous methods.
arxiv情報
著者 | Moab Arar,Rinon Gal,Yuval Atzmon,Gal Chechik,Daniel Cohen-Or,Ariel Shamir,Amit H. Bermano |
発行日 | 2023-07-13 17:46:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google