Imagic: Text-Based Real Image Editing with Diffusion Models

要約

テキスト調整された画像編集は、最近かなりの関心を集めています。
ただし、ほとんどの方法は現在、特定の編集タイプ (オブジェクト オーバーレイ、スタイル転送など) に限定されているか、合成的に生成された画像に適用されているか、共通のオブジェクトの複数の入力画像を必要としています。
このホワイト ペーパーでは、複雑な (例: 固定されていない) テキスト ガイドによるセマンティック編集を 1 つの実画像に適用する機能を初めて示します。
たとえば、画像内の 1 つまたは複数のオブジェクトの姿勢や構図を、元の特性を維持しながら変更できます。
私たちの方法では、立っている犬を座らせたり、ジャンプさせたり、鳥を羽ばたかせたりすることができます。これらはそれぞれ、ユーザーが提供する 1 つの高解像度の自然画像内で行われます。
以前の作業とは対照的に、提案された方法では、単一の入力画像とターゲット テキスト (目的の編集) のみが必要です。
これは実際の画像で動作し、追加の入力 (画像マスクやオブジェクトの追加ビューなど) は必要ありません。
「Imagic」と呼ばれる私たちの方法は、このタスクのために事前にトレーニングされたテキストから画像への拡散モデルを活用します。
入力画像とターゲット テキストの両方に一致するテキスト埋め込みを生成し、拡散モデルを微調整して画像固有の外観をキャプチャします。
さまざまなドメインからの多数の入力に対するメソッドの品質と汎用性を実証し、すべて単一の統合フレームワーク内で、高品質で複雑なセマンティックな画像編集を多数紹介しています。

要約(オリジナル)

Text-conditioned image editing has recently attracted considerable interest. However, most methods are currently either limited to specific editing types (e.g., object overlay, style transfer), or apply to synthetically generated images, or require multiple input images of a common object. In this paper we demonstrate, for the very first time, the ability to apply complex (e.g., non-rigid) text-guided semantic edits to a single real image. For example, we can change the posture and composition of one or multiple objects inside an image, while preserving its original characteristics. Our method can make a standing dog sit down or jump, cause a bird to spread its wings, etc. — each within its single high-resolution natural image provided by the user. Contrary to previous work, our proposed method requires only a single input image and a target text (the desired edit). It operates on real images, and does not require any additional inputs (such as image masks or additional views of the object). Our method, which we call ‘Imagic’, leverages a pre-trained text-to-image diffusion model for this task. It produces a text embedding that aligns with both the input image and the target text, while fine-tuning the diffusion model to capture the image-specific appearance. We demonstrate the quality and versatility of our method on numerous inputs from various domains, showcasing a plethora of high quality complex semantic image edits, all within a single unified framework.

arxiv情報

著者 Bahjat Kawar,Shiran Zada,Oran Lang,Omer Tov,Huiwen Chang,Tali Dekel,Inbar Mosseri,Michal Irani
発行日 2022-10-17 17:27:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク