LIME: Localized Image Editing via Attention Regularization in Diffusion Models

要約

拡散モデル (DM) は、テキストから画像への生成における最近の進歩により、高品質で多様な画像を生成できるため、注目を集めています。
研究の焦点は現在、DM の制御性に移ってきています。
この分野における重要な課題は、残りのコンテンツに影響を与えることなく画像の特定の領域を変更するローカライズされた編集です。
このペーパーでは、ユーザー指定の関心領域 (RoI) や追加のテキスト入力を必要としない、拡散モデルでの局所的な画像編集のための LIME を紹介します。
私たちの方法では、事前トレーニングされた方法の特徴と単純なクラスタリング手法を使用して、正確なセマンティック セグメンテーション マップを取得します。
次に、クロス アテンション マップを活用して、これらのセグメントを調整して局所的な編集を行います。
最後に、ノイズ除去ステップ中に RoI 内の無関係なクロスアテンション スコアにペナルティを課し、局所的な編集を保証する新しいクロスアテンション正則化手法を提案します。
私たちのアプローチは、再トレーニングや微調整を行わずに、さまざまな編集ベンチマークにおける既存の手法のパフォーマンスを一貫して向上させます。

要約(オリジナル)

Diffusion models (DMs) have gained prominence due to their ability to generate high-quality, varied images, with recent advancements in text-to-image generation. The research focus is now shifting towards the controllability of DMs. A significant challenge within this domain is localized editing, where specific areas of an image are modified without affecting the rest of the content. This paper introduces LIME for localized image editing in diffusion models that do not require user-specified regions of interest (RoI) or additional text input. Our method employs features from pre-trained methods and a simple clustering technique to obtain precise semantic segmentation maps. Then, by leveraging cross-attention maps, it refines these segments for localized edits. Finally, we propose a novel cross-attention regularization technique that penalizes unrelated cross-attention scores in the RoI during the denoising steps, ensuring localized edits. Our approach, without re-training and fine-tuning, consistently improves the performance of existing methods in various editing benchmarks.

arxiv情報

著者 Enis Simsar,Alessio Tonioni,Yongqin Xian,Thomas Hofmann,Federico Tombari
発行日 2023-12-14 18:59:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク