PAIR-Diffusion: Object-Level Image Editing with Structure-and-Appearance Paired Diffusion Models

要約

拡散モデルを使用した画像編集は、最近非常に急速な成長を遂げています。
以前の作品では、画像の制御と編集を可能にするさまざまな方法があります。
テキストなどの高レベルの条件付けを使用する作品もあれば、低レベルの条件付けを使用する作品もあります。
それにもかかわらず、それらのほとんどは、画像に存在するさまざまなオブジェクトのプロパティに対するきめ細かい制御、つまりオブジェクトレベルの画像編集を欠いています。
この作業では、画像を複数のオブジェクトの構成と見なし、それぞれがさまざまなプロパティによって定義されます。
これらのプロパティのうち、構造と外観が最も直感的に理解しやすく、編集目的に役立つと特定します。
構造と外観の対になった拡散モデル (PAIR-Diffusion) を提案します。このモデルは、画像から明示的に抽出された構造と外観の情報を使用してトレーニングされます。
提案されたモデルにより、ユーザーは参照画像の外観をオブジェクト レベルとグローバル レベルの両方で入力画像に挿入できます。
さらに、PAIR-Diffusion では、画像の個々のコンポーネントのスタイルを変更せずに維持しながら、構造を編集できます。
LSUN データセットと CelebA-HQ 顔データセットでこの方法を広く評価し、オブジェクト レベルで構造と外観の両方をきめ細かく制御できることを示します。
また、この方法を Stable Diffusion に適用して、オブジェクト レベルで実際の画像を編集しました。

要約(オリジナル)

Image editing using diffusion models has witnessed extremely fast-paced growth recently. There are various ways in which previous works enable controlling and editing images. Some works use high-level conditioning such as text, while others use low-level conditioning. Nevertheless, most of them lack fine-grained control over the properties of the different objects present in the image, i.e. object-level image editing. In this work, we consider an image as a composition of multiple objects, each defined by various properties. Out of these properties, we identify structure and appearance as the most intuitive to understand and useful for editing purposes. We propose Structure-and-Appearance Paired Diffusion model (PAIR-Diffusion), which is trained using structure and appearance information explicitly extracted from the images. The proposed model enables users to inject a reference image’s appearance into the input image at both the object and global levels. Additionally, PAIR-Diffusion allows editing the structure while maintaining the style of individual components of the image unchanged. We extensively evaluate our method on LSUN datasets and the CelebA-HQ face dataset, and we demonstrate fine-grained control over both structure and appearance at the object level. We also applied the method to Stable Diffusion to edit any real image at the object level.

arxiv情報

著者 Vidit Goel,Elia Peruzzo,Yifan Jiang,Dejia Xu,Nicu Sebe,Trevor Darrell,Zhangyang Wang,Humphrey Shi
発行日 2023-03-30 17:13:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク