Guided Image Synthesis via Initial Image Editing in Diffusion Model

要約

タイトル:拡散モデルによる初期画像編集によるガイド付き画像生成

要約:

– 拡散モデルは、純粋なガウスノイズ画像を除去して高品質の画像を生成する能力をもつ。
– 従来の研究は主に、画像生成の制御を向上させるための除去プロセスの調整に焦点を当てていたが、本研究では生成された画像を制御するために初期ノイズを操作する新しい方向性を提案する。
– 安定した拡散での実験で、初期潜在画像のブロックが特定のコンテンツを生成する傾向があることを示し、これらのブロックを変更することで生成される画像に重大な影響を与えることができることを示す。
– 特に、初期画像の一部を変更すると、対応する領域の生成された画像に影響を与えるため、塗り直しタスクに有用であることを示す。
– さらに、ピクセルブロックの生成傾向は、位置ではなく値によって主に決定されることがわかる。
– ユーザーが望むコンテンツを生成する傾向があるピクセルブロックを、ユーザー指定の領域に移動することで、レイアウトから画像生成の分野で最先端のパフォーマンスを達成する。
– 本研究の結果は、生成された画像を制御するための初期画像操作の柔軟性とパワーを強調している。

要約(オリジナル)

Diffusion models have the ability to generate high quality images by denoising pure Gaussian noise images. While previous research has primarily focused on improving the control of image generation through adjusting the denoising process, we propose a novel direction of manipulating the initial noise to control the generated image. Through experiments on stable diffusion, we show that blocks of pixels in the initial latent images have a preference for generating specific content, and that modifying these blocks can significantly influence the generated image. In particular, we show that modifying a part of the initial image affects the corresponding region of the generated image while leaving other regions unaffected, which is useful for repainting tasks. Furthermore, we find that the generation preferences of pixel blocks are primarily determined by their values, rather than their position. By moving pixel blocks with a tendency to generate user-desired content to user-specified regions, our approach achieves state-of-the-art performance in layout-to-image generation. Our results highlight the flexibility and power of initial image manipulation in controlling the generated image.

arxiv情報

著者 Jiafeng Mao,Xueting Wang,Kiyoharu Aizawa
発行日 2023-05-05 09:27:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク