Highly Personalized Text Embedding for Image Manipulation by Stable Diffusion

要約

タイトル:安定した拡散による画像操作のための高度に個人化されたテキスト埋め込み

要約:

– 拡散モデルは画像生成・操作において優れた性能を示しているが、本来の確率性は画像の内容やアイデンティティを保存・操作する際に課題を提供する。
– DreamBoothやTextual Inversionなどの従来のアプローチでは、コンテンツを維持するためにモデルまたは潜在表現の個人化を提案しているが、複数の参照画像や複雑なトレーニングに依存するため、実用的ではない。
– 本論文では、CLIP埋め込み空間を分解して個人化とコンテンツ操作に高度に個人化された(HiPer)テキスト埋め込みを使用する、シンプルかつ効果的なアプローチを提示する。モデルの微調整や識別子は必要なく、単一の画像とターゲットテキストだけで背景、テクスチャ、動きを操作することができる。
– 多様なターゲットテキストでの実験により、アプローチが広範なタスクにわたって高度にパーソナライズされた複雑な意味の画像編集を生成することを示す。
– 本研究で示されたテキスト埋め込み空間への新しい理解が、さまざまなタスクにわたるさらなる研究を促す可能性があると信じている。

要約(オリジナル)

Diffusion models have shown superior performance in image generation and manipulation, but the inherent stochasticity presents challenges in preserving and manipulating image content and identity. While previous approaches like DreamBooth and Textual Inversion have proposed model or latent representation personalization to maintain the content, their reliance on multiple reference images and complex training limits their practicality. In this paper, we present a simple yet highly effective approach to personalization using highly personalized (HiPer) text embedding by decomposing the CLIP embedding space for personalization and content manipulation. Our method does not require model fine-tuning or identifiers, yet still enables manipulation of background, texture, and motion with just a single image and target text. Through experiments on diverse target texts, we demonstrate that our approach produces highly personalized and complex semantic image edits across a wide range of tasks. We believe that the novel understanding of the text embedding space presented in this work has the potential to inspire further research across various tasks.

arxiv情報

著者 Inhwa Han,Serin Yang,Taesung Kwon,Jong Chul Ye
発行日 2023-04-19 14:23:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CV パーマリンク