要約
画像編集は、反転ベースの方法と命令ベースの方法の両方を使用した拡散モデルの開発により大幅に進歩しました。
ただし、現在の反転ベースのアプローチは、反転ノイズの構造的な性質により、大幅な変更 (オブジェクトの追加や削除など) に苦労しており、実質的な変更が妨げられています。
一方、命令ベースの方法ではユーザーがブラックボックス操作に制約されることが多く、編集領域や強度を指定するための直接対話が制限されます。
これらの制限に対処するために、私たちは、新しい修復ベースの命令ガイド付き画像編集パラダイムである BrushEdit を提案します。これは、マルチモーダル大規模言語モデル (MLLM) と画像修復モデルを活用して、自律的でユーザーフレンドリーでインタラクティブな自由形式の命令編集を可能にします。
具体的には、編集カテゴリ分類、主要オブジェクト識別、マスク取得、および編集領域修復を実行するエージェント協調フレームワークでMLLMとデュアルブランチ画像修復モデルを統合することにより、自由形式の命令編集を可能にするシステムを考案します。
広範な実験により、私たちのフレームワークが MLLM と修復モデルを効果的に組み合わせ、マスク領域の保存や編集効果の一貫性を含む 7 つの指標にわたって優れたパフォーマンスを達成していることが示されています。
要約(オリジナル)
Image editing has advanced significantly with the development of diffusion models using both inversion-based and instruction-based methods. However, current inversion-based approaches struggle with big modifications (e.g., adding or removing objects) due to the structured nature of inversion noise, which hinders substantial changes. Meanwhile, instruction-based methods often constrain users to black-box operations, limiting direct interaction for specifying editing regions and intensity. To address these limitations, we propose BrushEdit, a novel inpainting-based instruction-guided image editing paradigm, which leverages multimodal large language models (MLLMs) and image inpainting models to enable autonomous, user-friendly, and interactive free-form instruction editing. Specifically, we devise a system enabling free-form instruction editing by integrating MLLMs and a dual-branch image inpainting model in an agent-cooperative framework to perform editing category classification, main object identification, mask acquisition, and editing area inpainting. Extensive experiments show that our framework effectively combines MLLMs and inpainting models, achieving superior performance across seven metrics including mask region preservation and editing effect coherence.
arxiv情報
著者 | Yaowei Li,Yuxuan Bian,Xuan Ju,Zhaoyang Zhang,Ying Shan,Yuexian Zou,Qiang Xu |
発行日 | 2024-12-16 17:54:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google