Highly Personalized Text Embedding for Image Manipulation by Stable Diffusion

要約

タイトル:安定した拡散による画像操作のための高度に個人化されたテキスト埋め込み

要約:
– 拡散モデルは、画像生成や操作において優れた性能を示していますが、固有の確率性が画像のコンテンツとアイデンティティを保存し、操作する上で課題を提供しています。
– DreamBoothやTextual Inversionなど、以前のアプローチは、コンテンツを維持するためのモデルまたは潜在表現の個人化を提案していますが、複数の参照画像や複雑なトレーニングに依存するため、実用的ではありません。
– 本論文では、CLIP埋め込み空間の高度に個人化された(HiPer)テキスト埋め込みを使用して、個人化に対応するシンプルで非常に効果的なアプローチを提案しています。方法では、モデルのファインチューニングや識別子が必要なく、単一の画像とターゲットテキストで背景、テクスチャ、および動きを操作できます。
– 多様なターゲットテキストの実験を通じて、本アプローチは広範囲のタスクにわたる高度に個人化された、複雑な意味的な画像編集を生み出すことを示しています。本研究で提案されたテキスト埋め込み空間の新しい理解は、さまざまなタスクでさらなる研究を促す可能性があると考えています。

要約(オリジナル)

Diffusion models have shown superior performance in image generation and manipulation, but the inherent stochasticity presents challenges in preserving and manipulating image content and identity. While previous approaches like DreamBooth and Textual Inversion have proposed model or latent representation personalization to maintain the content, their reliance on multiple reference images and complex training limits their practicality. In this paper, we present a simple yet highly effective approach to personalization using highly personalized (HiPer) text embedding by decomposing the CLIP embedding space for personalization and content manipulation. Our method does not require model fine-tuning or identifiers, yet still enables manipulation of background, texture, and motion with just a single image and target text. Through experiments on diverse target texts, we demonstrate that our approach produces highly personalized and complex semantic image edits across a wide range of tasks. We believe that the novel understanding of the text embedding space presented in this work has the potential to inspire further research across various tasks.

arxiv情報

著者 Inhwa Han,Serin Yang,Taesung Kwon,Jong Chul Ye
発行日 2023-04-05 12:16:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CV パーマリンク