要約
現実の画像編集作業の多くは、望ましい結果を得るために複数の連続した編集を必要とする。現在の編集アプローチは、主に単一オブジェクトの修正用に設計されているため、逐次編集に苦労しています:特に、既存のコンテンツに新しいオブジェクトを自然に適応させるとともに、以前の編集を維持することです。これらの限界は、複数のオブジェクトを文脈上の関係を維持しながら修正する必要がある複雑な編集シナリオの妨げになる。我々は、新しい要素を自然に統合しながら既存のコンテンツを維持するラフマスク入力を可能にすることと、複数の修正にまたがる一貫した編集をサポートすることという2つの重要な提案を通じて、この基本的な課題に取り組む。我々のフレームワークは、レイヤーワイズメモリによってこれを実現し、レイヤーワイズメモリは、以前の編集からの潜在的な表現とプロンプトの埋め込みを保存する。我々は、記憶された潜在表現を活用してシーンの一貫性を維持するBackground Consistency Guidanceと、既存のコンテンツへの自然な適応を保証するCross AttentionにおけるMulti-Query Disentanglementを提案する。我々の手法を評価するために、セマンティックアライメントメトリクスとインタラクティブな編集シナリオを組み込んだ新しいベンチマークデータセットを提示する。包括的な実験を通して、複数の編集ステップを通して高品質な結果を維持しながら、大まかなマスクのみを必要とする、最小限のユーザの労力で反復的な画像編集タスクにおいて優れた性能を実証する。
要約(オリジナル)
Most real-world image editing tasks require multiple sequential edits to achieve desired results. Current editing approaches, primarily designed for single-object modifications, struggle with sequential editing: especially with maintaining previous edits along with adapting new objects naturally into the existing content. These limitations significantly hinder complex editing scenarios where multiple objects need to be modified while preserving their contextual relationships. We address this fundamental challenge through two key proposals: enabling rough mask inputs that preserve existing content while naturally integrating new elements and supporting consistent editing across multiple modifications. Our framework achieves this through layer-wise memory, which stores latent representations and prompt embeddings from previous edits. We propose Background Consistency Guidance that leverages memorized latents to maintain scene coherence and Multi-Query Disentanglement in cross-attention that ensures natural adaptation to existing content. To evaluate our method, we present a new benchmark dataset incorporating semantic alignment metrics and interactive editing scenarios. Through comprehensive experiments, we demonstrate superior performance in iterative image editing tasks with minimal user effort, requiring only rough masks while maintaining high-quality results throughout multiple editing steps.
arxiv情報
| 著者 | Daneul Kim,Jaeah Lee,Jaesik Park |
| 発行日 | 2025-05-02 07:36:49+00:00 |
| arxivサイト | arxiv_id(pdf) |