要約
テキスト誘導画像編集は、一般的な構造と背景の忠実度を維持しながら、自然言語の指示に従って画像の特定の領域を変更することを目的としています。
既存の方法は、拡散モデルから生成された交差アテンションマップから派生したマスクを利用して、修正のためのターゲット領域を識別します。
ただし、クロスアテンションメカニズムはセマンティック関連性に焦点を当てているため、イメージの完全性を維持するのに苦労しています。
その結果、これらの方法はしばしば空間的な一貫性を欠いており、アーティファクトと歪みの編集につながります。
この作業では、これらの制限に対処し、導入します。これにより、自己攻撃由来のパッチ関係を利用してグラフベースのアプローチを介してクロスアテナンスマップを強化して、画像領域全体で滑らかでコヒーレントな注意を維持し、周囲の構造を保持しながら変更されたアイテムに制限されるようにします。
Pie-Benchの既存のベースラインを一貫して実質的に優れた状態にしており、さまざまな編集タスクで最先端のパフォーマンスと有効性を示しています。
コードはhttps://github.com/locatedit/locatedit/にあります
要約(オリジナル)
Text-guided image editing aims to modify specific regions of an image according to natural language instructions while maintaining the general structure and the background fidelity. Existing methods utilize masks derived from cross-attention maps generated from diffusion models to identify the target regions for modification. However, since cross-attention mechanisms focus on semantic relevance, they struggle to maintain the image integrity. As a result, these methods often lack spatial consistency, leading to editing artifacts and distortions. In this work, we address these limitations and introduce LOCATEdit, which enhances cross-attention maps through a graph-based approach utilizing self-attention-derived patch relationships to maintain smooth, coherent attention across image regions, ensuring that alterations are limited to the designated items while retaining the surrounding structure. LOCATEdit consistently and substantially outperforms existing baselines on PIE-Bench, demonstrating its state-of-the-art performance and effectiveness on various editing tasks. Code can be found on https://github.com/LOCATEdit/LOCATEdit/
arxiv情報
著者 | Achint Soni,Meet Soni,Sirisha Rambhatla |
発行日 | 2025-03-28 12:17:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google