FreeEdit: Mask-free Reference-based Image Editing with Multi-modal Instruction

要約

画像編集にユーザー指定の視覚的概念を導入することは、これらの概念がテキストベースの説明よりもユーザーの意図をより正確に伝えるため、非常に実用的です。
私たちは、このような参照ベースの画像編集を実現するための新しいアプローチである FreeEdit を提案します。これは、ユーザーフレンドリーな言語指示に基づいて参照画像から視覚的コンセプトを正確に再現することができます。
私たちのアプローチは、マルチモーダル命令エンコーダーを利用して言語命令をエンコードし、編集プロセスをガイドします。
編集領域を配置するこの暗黙的な方法により、手動で編集マスクを使用する必要がなくなります。
参照詳細の再構築を強化するために、Decoupled Residual ReferAttendant (DRRA) モジュールを導入します。
このモジュールは、元の自己注意を妨げることなく、詳細エクストラクターによって抽出されたきめの細かい参照特徴を画像編集プロセスに残りの方法で統合するように設計されています。
既存のデータセットは、特に参照画像を含む画像 3 要素を構築することが難しいため、参照ベースの画像編集タスクには適していないことを考慮して、新しく開発された 2 回の再描画スキームを使用して高品質のデータセット、FreeBench をキュレートします。
FreeBench は、編集前後の画像、詳細な編集手順、編集されたオブジェクトの同一性を維持する参照画像で構成され、オブジェクトの追加、置換、削除などのタスクが含まれます。
FreeEdit は、FreeBench で段階的なトレーニングを実施し、その後品質チューニングを行うことで、便利な言語指示を通じて高品質のゼロショット編集を実現します。
私たちは広範な実験を行って、複数の種類のタスクにわたって FreeEdit の有効性を評価し、既存の方法に対する FreeEdit の優位性を実証しています。
コードは https://freeedit.github.io/ から入手できます。

要約(オリジナル)

Introducing user-specified visual concepts in image editing is highly practical as these concepts convey the user’s intent more precisely than text-based descriptions. We propose FreeEdit, a novel approach for achieving such reference-based image editing, which can accurately reproduce the visual concept from the reference image based on user-friendly language instructions. Our approach leverages the multi-modal instruction encoder to encode language instructions to guide the editing process. This implicit way of locating the editing area eliminates the need for manual editing masks. To enhance the reconstruction of reference details, we introduce the Decoupled Residual ReferAttention (DRRA) module. This module is designed to integrate fine-grained reference features extracted by a detail extractor into the image editing process in a residual way without interfering with the original self-attention. Given that existing datasets are unsuitable for reference-based image editing tasks, particularly due to the difficulty in constructing image triplets that include a reference image, we curate a high-quality dataset, FreeBench, using a newly developed twice-repainting scheme. FreeBench comprises the images before and after editing, detailed editing instructions, as well as a reference image that maintains the identity of the edited object, encompassing tasks such as object addition, replacement, and deletion. By conducting phased training on FreeBench followed by quality tuning, FreeEdit achieves high-quality zero-shot editing through convenient language instructions. We conduct extensive experiments to evaluate the effectiveness of FreeEdit across multiple task types, demonstrating its superiority over existing methods. The code will be available at: https://freeedit.github.io/.

arxiv情報

著者 Runze He,Kai Ma,Linjiang Huang,Shaofei Huang,Jialin Gao,Xiaoming Wei,Jiao Dai,Jizhong Han,Si Liu
発行日 2024-09-26 17:18:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク