Prompt Augmentation for Self-supervised Text-guided Image Manipulation

要約

テキストガイドによる画像編集は、さまざまな創造的および実用的な分野で応用されています。
画像生成に関する最近の研究はこの分野を進歩させましたが、一貫した画像変換とコンテキストの保存という 2 つの課題に苦戦することがよくあります。
これに応えて、私たちの研究ではプロンプト拡張を導入しました。これは、単一の入力プロンプトを複数のターゲット プロンプトに増幅し、テキストのコンテキストを強化し、ローカライズされた画像編集を可能にする方法です。
具体的には、拡張されたプロンプトを使用して、意図した操作領域を示します。
私たちは、編集領域を移動し、保存領域を近づけることにより、効果的な画像編集を推進するために調整されたコントラスト損失を提案します。
画像操作の継続的な性質を認識し、類似性の概念を組み込んでアプローチをさらに改良し、ソフト コントラスト損失を作成します。
新しい損失は拡散モデルに組み込まれ、公開データセットおよび生成された画像で最先端のアプローチよりも改善された、または競合する画像編集結果が実証されます。

要約(オリジナル)

Text-guided image editing finds applications in various creative and practical fields. While recent studies in image generation have advanced the field, they often struggle with the dual challenges of coherent image transformation and context preservation. In response, our work introduces prompt augmentation, a method amplifying a single input prompt into several target prompts, strengthening textual context and enabling localised image editing. Specifically, we use the augmented prompts to delineate the intended manipulation area. We propose a Contrastive Loss tailored to driving effective image editing by displacing edited areas and drawing preserved regions closer. Acknowledging the continuous nature of image manipulations, we further refine our approach by incorporating the similarity concept, creating a Soft Contrastive Loss. The new losses are incorporated to the diffusion model, demonstrating improved or competitive image editing results on public datasets and generated images over state-of-the-art approaches.

arxiv情報

著者 Rumeysa Bodur,Binod Bhattarai,Tae-Kyun Kim
発行日 2024-12-17 16:54:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク