要約
大規模な生成モデルは、詳細なテキスト記述から高品質の画像を生成できます。
ただし、画像の多くの側面はテキストでは伝えるのが困難または不可能です。
自己ガイダンスを導入します。これは、拡散モデルの内部表現をガイドすることで、生成された画像をより詳細に制御できる方法です。
オブジェクトの形状、位置、外観などのプロパティをこれらの表現から抽出し、サンプリングを制御するために使用できることを示します。
セルフガイダンスは分類子ガイダンスと同様に機能しますが、事前トレーニングされたモデル自体に存在する信号を使用するため、追加のモデルやトレーニングは必要ありません。
オブジェクトの位置やサイズの変更、ある画像内のオブジェクトの外観を別の画像のレイアウトと結合する、多数の画像からオブジェクトを 1 つに合成するなど、難しい画像操作を実行するために単純なプロパティのセットを構成する方法を示します。
もっと。
また、セルフガイダンスを使用して実際の画像を編集できることも示します。
結果とインタラクティブなデモについては、https://dave.ml/selfguidance/ のプロジェクト ページをご覧ください。
要約(オリジナル)
Large-scale generative models are capable of producing high-quality images from detailed text descriptions. However, many aspects of an image are difficult or impossible to convey through text. We introduce self-guidance, a method that provides greater control over generated images by guiding the internal representations of diffusion models. We demonstrate that properties such as the shape, location, and appearance of objects can be extracted from these representations and used to steer sampling. Self-guidance works similarly to classifier guidance, but uses signals present in the pretrained model itself, requiring no additional models or training. We show how a simple set of properties can be composed to perform challenging image manipulations, such as modifying the position or size of objects, merging the appearance of objects in one image with the layout of another, composing objects from many images into one, and more. We also show that self-guidance can be used to edit real images. For results and an interactive demo, see our project page at https://dave.ml/selfguidance/
arxiv情報
著者 | Dave Epstein,Allan Jabri,Ben Poole,Alexei A. Efros,Aleksander Holynski |
発行日 | 2023-06-01 17:59:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google