Dynamic Prompt Learning: Addressing Cross-Attention Leakage for Text-Based Image Editing

要約

大規模なテキストから画像への生成モデルは、生成 AI における画期的な開発であり、拡散モデルは、入力テキスト プロンプトに従って説得力のある画像を合成する驚異的な能力を示しています。
画像編集研究の目標は、テキスト プロンプトを変更することで、生成された画像をユーザーが制御できるようにすることです。
現在の画像編集技術は、ターゲット オブジェクトと何らかの意味的または視覚的な関係を持つ背景やディストラクタ オブジェクトなど、ターゲット領域の外側の領域が意図せず変更される可能性があります。
私たちの実験結果によると、不正確なクロスアテンション マップがこの問題の根本にあります。
この観察に基づいて、テキスト プロンプト内の正しい名詞単語にクロス アテンション マップを強制的に集中させる動的プロンプト学習 (DPL) を提案します。
提案されたリーク修復損失を使用してテキスト入力内の名詞の動的トークンを更新することで、他の画像領域への望ましくない変更を防ぎながら、特定のオブジェクトに対するきめの細かい画像編集を実現します。
公開されている安定拡散に基づく当社の手法 DPL は、広範囲の画像で広範囲に評価されており、定量的 (CLIP スコア、構造距離) と定性的 (ユーザー評価) の両方で優れた結果を一貫して得ています。
特に複雑なマルチオブジェクト シーンで、ワードスワップ、プロンプトの絞り込み、およびアテンションの再重み付けのプロンプト編集結果が改善されたことを示します。

要約(オリジナル)

Large-scale text-to-image generative models have been a ground-breaking development in generative AI, with diffusion models showing their astounding ability to synthesize convincing images following an input text prompt. The goal of image editing research is to give users control over the generated images by modifying the text prompt. Current image editing techniques are susceptible to unintended modifications of regions outside the targeted area, such as on the background or on distractor objects which have some semantic or visual relationship with the targeted object. According to our experimental findings, inaccurate cross-attention maps are at the root of this problem. Based on this observation, we propose Dynamic Prompt Learning (DPL) to force cross-attention maps to focus on correct noun words in the text prompt. By updating the dynamic tokens for nouns in the textual input with the proposed leakage repairment losses, we achieve fine-grained image editing over particular objects while preventing undesired changes to other image regions. Our method DPL, based on the publicly available Stable Diffusion, is extensively evaluated on a wide range of images, and consistently obtains superior results both quantitatively (CLIP score, Structure-Dist) and qualitatively (on user-evaluation). We show improved prompt editing results for Word-Swap, Prompt Refinement, and Attention Re-weighting, especially for complex multi-object scenes.

arxiv情報

著者 Kai Wang,Fei Yang,Shiqi Yang,Muhammad Atif Butt,Joost van de Weijer
発行日 2023-09-27 13:55:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク