LocInv: Localization-aware Inversion for Text-Guided Image Editing

要約

大規模な Text-to-Image (T2I) 拡散モデルは、テキスト プロンプトに基づいた重要な生成機能を実証します。
T2I 普及モデルに基づいたテキストガイドによる画像編集の研究は、ユーザーがテキスト プロンプトを変更することで生成された画像を操作できるようにすることを目的としています。
しかし、既存の画像編集技術では、主にクロスアテンション マップの不正確さが原因で、意図したターゲット領域を超えた意図しない領域を編集してしまう傾向があります。
この問題に対処するために、私たちは Localization-aware Inversion (LocInv) を提案します。これは、拡散プロセスのノイズ除去フェーズでクロス アテンション マップを改良するための追加のローカリゼーション事前処理としてセグメンテーション マップまたはバウンディング ボックスを利用します。
テキスト入力内の名詞単語に対応するトークンを動的に更新することにより、クロスアテンション マップがテキスト プロンプト内の正しい名詞および形容詞単語と厳密に一致するように強制されます。
この技術に基づいて、他の領域への望ましくない変更を防ぎながら、特定のオブジェクトに対するきめの細かい画像編集を実現します。
私たちの手法 LocInv は、公開されている Stable Diffusion に基づいており、COCO データセットのサブセットで広範囲に評価され、定量的および定性的に優れた結果を一貫して得ています。コードは https://github.com/wangkai930418/DPL でリリースされます。

要約(オリジナル)

Large-scale Text-to-Image (T2I) diffusion models demonstrate significant generation capabilities based on textual prompts. Based on the T2I diffusion models, text-guided image editing research aims to empower users to manipulate generated images by altering the text prompts. However, existing image editing techniques are prone to editing over unintentional regions that are beyond the intended target area, primarily due to inaccuracies in cross-attention maps. To address this problem, we propose Localization-aware Inversion (LocInv), which exploits segmentation maps or bounding boxes as extra localization priors to refine the cross-attention maps in the denoising phases of the diffusion process. Through the dynamic updating of tokens corresponding to noun words in the textual input, we are compelling the cross-attention maps to closely align with the correct noun and adjective words in the text prompt. Based on this technique, we achieve fine-grained image editing over particular objects while preventing undesired changes to other regions. Our method LocInv, based on the publicly available Stable Diffusion, is extensively evaluated on a subset of the COCO dataset, and consistently obtains superior results both quantitatively and qualitatively.The code will be released at https://github.com/wangkai930418/DPL

arxiv情報

著者 Chuanming Tang,Kai Wang,Fei Yang,Joost van de Weijer
発行日 2024-05-02 17:27:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク