要約
生成モデル (GAN、拡散モデルなど) は、基礎となるデータ分布を教師なしで学習します。
ただし、関心のある多くのアプリケーションでは、出力空間の特定の領域からサンプリングするか、特性の範囲にわたって均等にサンプリングする必要があります。
これらのシナリオでの効率的なサンプリングのために、Generative Visual Prompt (PromptGen) を提案します。これは、他の既製のモデルの知識を組み込むことによって、事前にトレーニングされた生成モデルを分散制御するためのフレームワークです。
PromptGen は、制御をエネルギーベースのモデル (EBM) として定義し、推論での最適化を回避して、可逆ニューラル ネットワークで EBM を近似することにより、フィードフォワード方式で画像をサンプリングします。
私たちの実験は、さまざまな既製のモデルを使用して、PromptGen がいくつかの無条件の生成モデル (StyleGAN2、StyleNeRF、拡散オートエンコーダー、NVAE など) から、制御された方法またはバイアス緩和された方法で効率的にサンプリングする方法を示しています。
PromptGen は、テキストによってガイドされる画像をサンプリングできます。(2) 画像分類器をコントロールとして使用します。PromptGen は、属性または属性の組み合わせのセット全体で生成モデルのバイアスを軽減できます。(3) コントロールとして逆グラフィックス モデルを使用すると、PromptGen は次のことができます。
異なるポーズで同じアイデンティティのサンプル画像。
(4) 最後に、PromptGen は、CLIP モデルがコントロールとして使用された場合に「レポート バイアス」を示すことを明らかにし、PromptGen は、この制御された分布のバイアスを反復的にさらに軽減することができます。
コードは https://github.com/ChenWu98/Generative-Visual-Prompt で入手できます。
要約(オリジナル)
Generative models (e.g., GANs, diffusion models) learn the underlying data distribution in an unsupervised manner. However, many applications of interest require sampling from a particular region of the output space or sampling evenly over a range of characteristics. For efficient sampling in these scenarios, we propose Generative Visual Prompt (PromptGen), a framework for distributional control over pre-trained generative models by incorporating knowledge of other off-the-shelf models. PromptGen defines control as energy-based models (EBMs) and samples images in a feed-forward manner by approximating the EBM with invertible neural networks, avoiding optimization at inference. Our experiments demonstrate how PromptGen can efficiently sample from several unconditional generative models (e.g., StyleGAN2, StyleNeRF, diffusion autoencoder, NVAE) in a controlled or/and de-biased manner using various off-the-shelf models: (1) with the CLIP model as control, PromptGen can sample images guided by text, (2) with image classifiers as control, PromptGen can de-bias generative models across a set of attributes or attribute combinations, and (3) with inverse graphics models as control, PromptGen can sample images of the same identity in different poses. (4) Finally, PromptGen reveals that the CLIP model shows a ‘reporting bias’ when used as control, and PromptGen can further de-bias this controlled distribution in an iterative manner. The code is available at https://github.com/ChenWu98/Generative-Visual-Prompt.
arxiv情報
著者 | Chen Henry Wu,Saman Motamed,Shaunak Srivastava,Fernando De la Torre |
発行日 | 2022-10-17 16:53:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google