Visual Instruction Inversion: Image Editing via Visual Prompting

要約

テキスト条件付き画像編集は、画像編集のための強力なツールとして登場しました。
ただし、多くの状況において、言語は曖昧で、特定の画像編集を説明するのに効果的ではない可能性があります。
このような課題に直面した場合、視覚的なプロンプトはアイデアを伝えるためのより有益で直感的な方法となります。
視覚的なプロンプトを介して画像を編集する方法を紹介します。
編集の「前」画像と「後」画像を表す例のペアが与えられた場合、私たちの目標は、新しい画像に対して同じ編集を実行するために使用できるテキストベースの編集方向を学習することです。
視覚的なプロンプトを編集指示に変換することで、テキストから画像への拡散モデルの豊富な事前トレーニング済み編集機能を活用します。
私たちの結果は、たった 1 つのサンプル ペアで、最先端のテキスト条件付き画像編集フレームワークと比較して競争力のある結果を達成できることを示しています。

要約(オリジナル)

Text-conditioned image editing has emerged as a powerful tool for editing images. However, in many situations, language can be ambiguous and ineffective in describing specific image edits. When faced with such challenges, visual prompts can be a more informative and intuitive way to convey ideas. We present a method for image editing via visual prompting. Given pairs of example that represent the ‘before’ and ‘after’ images of an edit, our goal is to learn a text-based editing direction that can be used to perform the same edit on new images. We leverage the rich, pretrained editing capabilities of text-to-image diffusion models by inverting visual prompts into editing instructions. Our results show that with just one example pair, we can achieve competitive results compared to state-of-the-art text-conditioned image editing frameworks.

arxiv情報

著者 Thao Nguyen,Yuheng Li,Utkarsh Ojha,Yong Jae Lee
発行日 2023-07-26 17:50:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク