MagicBrush: A Manually Annotated Dataset for Instruction-Guided Image Editing

要約

テキストガイドによる画像編集は、個人的な使用から Photoshop などのプロのアプリケーションに至るまで、日常生活で広く必要とされています。
ただし、既存の手法はゼロショットであるか、大量のノイズを含む自動合成されたデータセットでトレーニングされています。
したがって、実際に望ましい結果を生み出すには、依然として多くの手動調整が必要です。
この問題に対処するために、MagicBrush (https://osu-nlp-group.github.io/MagicBrush/) を導入します。これは、さまざまなシナリオをカバーする、命令ガイド付きの実際の画像編集のための、最初の大規模で手動でアノテーションが付けられたデータセットです。
ターン、マルチターン、マスク付き、およびマスクなしの編集。
MagicBrush は、手動で注釈が付けられた 10,000 を超えるトリプル (ソース画像、命令、ターゲット画像) で構成されており、大規模なテキストガイド付き画像編集モデルのトレーニングをサポートします。
MagicBrush で InstructPix2Pix を微調整し、人間の評価に従って新しいモデルがはるかに優れた画像を生成できることを示します。
さらに、現在の画像編集ベースラインを定量的、定性的、人間による評価などの多次元から評価するための広範な実験を行っています。
その結果、データセットの困難な性質と、現在のベースラインと現実世界の編集ニーズとの間のギャップが明らかになりました。

要約(オリジナル)

Text-guided image editing is widely needed in daily life, ranging from personal use to professional applications such as Photoshop. However, existing methods are either zero-shot or trained on an automatically synthesized dataset, which contains a high volume of noise. Thus, they still require lots of manual tuning to produce desirable outcomes in practice. To address this issue, we introduce MagicBrush (https://osu-nlp-group.github.io/MagicBrush/), the first large-scale, manually annotated dataset for instruction-guided real image editing that covers diverse scenarios: single-turn, multi-turn, mask-provided, and mask-free editing. MagicBrush comprises over 10K manually annotated triples (source image, instruction, target image), which supports trainining large-scale text-guided image editing models. We fine-tune InstructPix2Pix on MagicBrush and show that the new model can produce much better images according to human evaluation. We further conduct extensive experiments to evaluate current image editing baselines from multiple dimensions including quantitative, qualitative, and human evaluations. The results reveal the challenging nature of our dataset and the gap between current baselines and real-world editing needs.

arxiv情報

著者 Kai Zhang,Lingbo Mo,Wenhu Chen,Huan Sun,Yu Su
発行日 2023-06-16 17:58:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク