MagicQuill: An Intelligent Interactive Image Editing System

要約

画像編集にはさまざまな複雑なタスクが含まれており、効率的かつ正確な操作技術が必要です。
本稿では、創造的なアイデアを迅速に実現できる統合画像編集システム MagicQuill を紹介します。
当社のシステムは、合理的でありながら機能的に堅牢なインターフェイスを備えており、最小限の入力で編集操作 (要素の挿入、オブジェクトの消去、色の変更など) を明確に行うことができます。
これらの対話はマルチモーダル大規模言語モデル (MLLM) によって監視され、編集の意図をリアルタイムで予測し、明示的なプロンプト入力の必要性を回避します。
最後に、注意深く学習した 2 分岐プラグイン モジュールによって強化された強力な拡散プリアを適用し、正確な制御で編集リクエストを処理します。
実験結果は、高品質の画像編集を実現するための MagicQuill の有効性を示しています。
https://magic-quill.github.io にアクセスしてシステムを試してください。

要約(オリジナル)

Image editing involves a variety of complex tasks and requires efficient and precise manipulation techniques. In this paper, we present MagicQuill, an integrated image editing system that enables swift actualization of creative ideas. Our system features a streamlined yet functionally robust interface, allowing for the articulation of editing operations (e.g., inserting elements, erasing objects, altering color) with minimal input. These interactions are monitored by a multimodal large language model (MLLM) to anticipate editing intentions in real time, bypassing the need for explicit prompt entry. Finally, we apply a powerful diffusion prior, enhanced by a carefully learned two-branch plug-in module, to process editing requests with precise control. Experimental results demonstrate the effectiveness of MagicQuill in achieving high-quality image edits. Please visit https://magic-quill.github.io to try out our system.

arxiv情報

著者 Zichen Liu,Yue Yu,Hao Ouyang,Qiuyu Wang,Ka Leong Cheng,Wen Wang,Zhiheng Liu,Qifeng Chen,Yujun Shen
発行日 2024-11-14 18:59:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク