Emu Edit: Precise Image Editing via Recognition and Generation Tasks

要約

命令ベースの画像編集は、ユーザーが自然言語命令を使用してあらゆる編集操作を実行できるため、さまざまなアプリケーションに計り知れない可能性を秘めています。
ただし、この分野の現在のモデルは、ユーザーの指示を正確に実行するのに苦労することがよくあります。
私たちは、命令ベースの画像編集で最先端の結果をもたらすマルチタスク画像編集モデルである Emu Edit を紹介します。
Emu Edit を開発するために、領域ベースの編集、フリーフォーム編集、コンピューター ビジョン タスクなど、前例のない範囲のタスクにわたるマルチタスクを実行できるようにトレーニングします。これらはすべて生成タスクとして定式化されます。
さらに、Emu Edit のマルチタスク学習能力を強化するために、生成プロセスを正しい編集タイプに導く学習済みタスクの埋め込みを提供します。
これらの要素は両方とも、Emu Edit の優れたパフォーマンスに不可欠です。
さらに、Emu Edit が画像の修復、超解像度、編集タスクの合成などの新しいタスクに一般化できることを、いくつかのラベル付き例とともに示します。
この機能は、高品質のサンプルが不足しているシナリオで大きな利点をもたらします。
最後に、指導可能な画像編集モデルのより厳密で情報に基づいた評価を促進するために、7 つの異なる画像編集タスクを含む、挑戦的で多用途の新しいベンチマークをリリースします。

要約(オリジナル)

Instruction-based image editing holds immense potential for a variety of applications, as it enables users to perform any editing operation using a natural language instruction. However, current models in this domain often struggle with accurately executing user instructions. We present Emu Edit, a multi-task image editing model which sets state-of-the-art results in instruction-based image editing. To develop Emu Edit we train it to multi-task across an unprecedented range of tasks, such as region-based editing, free-form editing, and Computer Vision tasks, all of which are formulated as generative tasks. Additionally, to enhance Emu Edit’s multi-task learning abilities, we provide it with learned task embeddings which guide the generation process towards the correct edit type. Both these elements are essential for Emu Edit’s outstanding performance. Furthermore, we show that Emu Edit can generalize to new tasks, such as image inpainting, super-resolution, and compositions of editing tasks, with just a few labeled examples. This capability offers a significant advantage in scenarios where high-quality samples are scarce. Lastly, to facilitate a more rigorous and informed assessment of instructable image editing models, we release a new challenging and versatile benchmark that includes seven different image editing tasks.

arxiv情報

著者 Shelly Sheynin,Adam Polyak,Uriel Singer,Yuval Kirstain,Amit Zohar,Oron Ashual,Devi Parikh,Yaniv Taigman
発行日 2023-11-16 18:55:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク