要約
大規模な生成モデルは、詳細なテキスト記述から高品質の画像を生成することが可能です。しかし、画像の多くの側面は、テキストで伝えることが困難であるか、不可能である。我々は、拡散モデルの内部表現を誘導することで、生成される画像をより制御する手法であるセルフガイダンスを紹介する。拡散モデルの内部表現から、物体の形状、位置、外観などの特性を抽出し、サンプリングの誘導に利用できることを実証する。自己誘導は分類器誘導と同様に機能するが、事前学習されたモデル自体に存在する信号を使用するため、追加のモデルや学習は必要ない。例えば、オブジェクトの位置や大きさの変更、ある画像内のオブジェクトの外観と別の画像のレイアウトの融合、多数の画像から1つのオブジェクトへの合成など、困難な画像操作を実行するために、シンプルなプロパティセットを構成できることを示す。また、セルフガイダンスを用いて実画像の編集が可能であることも示しています。結果とインタラクティブなデモについては、プロジェクトページ(https://dave.ml/selfguidance/)をご覧ください。
要約(オリジナル)
Large-scale generative models are capable of producing high-quality images from detailed text descriptions. However, many aspects of an image are difficult or impossible to convey through text. We introduce self-guidance, a method that provides greater control over generated images by guiding the internal representations of diffusion models. We demonstrate that properties such as the shape, location, and appearance of objects can be extracted from these representations and used to steer sampling. Self-guidance works similarly to classifier guidance, but uses signals present in the pretrained model itself, requiring no additional models or training. We show how a simple set of properties can be composed to perform challenging image manipulations, such as modifying the position or size of objects, merging the appearance of objects in one image with the layout of another, composing objects from many images into one, and more. We also show that self-guidance can be used to edit real images. For results and an interactive demo, see our project page at https://dave.ml/selfguidance/
arxiv情報
著者 | Dave Epstein,Allan Jabri,Ben Poole,Alexei A. Efros,Aleksander Holynski |
発行日 | 2023-06-02 17:16:43+00:00 |
arxivサイト | arxiv_id(pdf) |