BrushEdit: All-In-One Image Inpainting and Editing

要約

画像編集は、インバージョンベースとインストラクションベースの両方の手法を用いた拡散モデルの開発により、大きく進歩した。しかし、現在の反転ベースの手法は、反転ノイズの構造的な性質が大幅な変更を妨げているため、大きな変更(オブジェクトの追加や削除など)に苦戦している。一方、インストラクションベースの手法は、しばしばユーザをブラックボックス操作に拘束し、編集領域や強度を指定するための直接的なインタラクションを制限する。これらの限界に対処するために、我々は、マルチモーダル大規模言語モデル(MLLM)と画像インペインティングモデルを活用し、自律的で、ユーザーフレンドリーで、インタラクティブな自由形式の指示編集を可能にする、新しいインペインティングベースの指示誘導型画像編集パラダイムであるBrushEditを提案する。具体的には、MLLMとデュアルブランチ画像インペインティングモデルをエージェント協調フレームワークで統合し、編集カテゴリ分類、メインオブジェクト識別、マスク取得、編集領域インペインティングを行うことで、自由形式の指示編集を可能にするシステムを考案する。広範な実験により、我々のフレームワークがMLLMとインペインティングモデルを効果的に組み合わせ、マスク領域の保存と編集効果の一貫性を含む7つのメトリクスにおいて優れた性能を達成することが示された。

要約(オリジナル)

Image editing has advanced significantly with the development of diffusion models using both inversion-based and instruction-based methods. However, current inversion-based approaches struggle with big modifications (e.g., adding or removing objects) due to the structured nature of inversion noise, which hinders substantial changes. Meanwhile, instruction-based methods often constrain users to black-box operations, limiting direct interaction for specifying editing regions and intensity. To address these limitations, we propose BrushEdit, a novel inpainting-based instruction-guided image editing paradigm, which leverages multimodal large language models (MLLMs) and image inpainting models to enable autonomous, user-friendly, and interactive free-form instruction editing. Specifically, we devise a system enabling free-form instruction editing by integrating MLLMs and a dual-branch image inpainting model in an agent-cooperative framework to perform editing category classification, main object identification, mask acquisition, and editing area inpainting. Extensive experiments show that our framework effectively combines MLLMs and inpainting models, achieving superior performance across seven metrics including mask region preservation and editing effect coherence.

arxiv情報

著者 Yaowei Li,Yuxuan Bian,Xuan Ju,Zhaoyang Zhang,Junhao Zhuang,Ying Shan,Yuexian Zou,Qiang Xu
発行日 2025-05-05 16:31:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV パーマリンク