EditWorld: Simulating World Dynamics for Instruction-Following Image Editing

要約

拡散モデルにより、画像編集のパフォーマンスが大幅に向上しました。
既存の手法では、テキスト制御、ドラッグ操作、マスクと修復など、高品質な画像編集を実現するためのさまざまなアプローチが実現されています。
中でも、指示ベースの編集は、さまざまなシナリオにわたって人間の指示に従う際の利便性と有効性で際立っています。
ただし、依然として追加、置換、削除などの単純な編集操作に焦点を当てており、物理世界の現実的な動的な性質を伝える世界のダイナミクスの側面を理解するには至っていません。
したがって、この作品 EditWorld では、さまざまな世界シナリオに基づいて命令を定義および分類する、世界命令画像編集という新しい編集タスクを導入します。
私たちは、大規模な事前トレーニング済みモデル (GPT-3.5、Video-LLava、SDXL など) のセットを使用して、ワールド命令を備えた新しい画像編集データセットを厳選します。
画像編集のためのワールドダイナミクスの十分なシミュレーションを可能にするために、当社の EditWorld は厳選されたデータセットでモデルをトレーニングし、設計された編集後戦略で指示に従う能力を向上させます。
広範な実験により、この新しいタスクでは、私たちの方法が既存の編集方法よりも大幅に優れていることが実証されました。
データセットとコードは https://github.com/YangLing0818/EditWorld で入手できます。

要約(オリジナル)

Diffusion models have significantly improved the performance of image editing. Existing methods realize various approaches to achieve high-quality image editing, including but not limited to text control, dragging operation, and mask-and-inpainting. Among these, instruction-based editing stands out for its convenience and effectiveness in following human instructions across diverse scenarios. However, it still focuses on simple editing operations like adding, replacing, or deleting, and falls short of understanding aspects of world dynamics that convey the realistic dynamic nature in the physical world. Therefore, this work, EditWorld, introduces a new editing task, namely world-instructed image editing, which defines and categorizes the instructions grounded by various world scenarios. We curate a new image editing dataset with world instructions using a set of large pretrained models (e.g., GPT-3.5, Video-LLava and SDXL). To enable sufficient simulation of world dynamics for image editing, our EditWorld trains model in the curated dataset, and improves instruction-following ability with designed post-edit strategy. Extensive experiments demonstrate our method significantly outperforms existing editing methods in this new task. Our dataset and code will be available at https://github.com/YangLing0818/EditWorld

arxiv情報

著者 Ling Yang,Bohan Zeng,Jiaming Liu,Hong Li,Minghao Xu,Wentao Zhang,Shuicheng Yan
発行日 2024-05-23 16:54:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク