clip2latent: Text driven sampling of a pre-trained StyleGAN using denoising diffusion and CLIP

要約

事前に学習させたCLIPとStyleGANからテキスト-画像モデルを効率的に作成する新しい手法を紹介します。これは、外部データや微調整を行うことなく、既存の生成モデルでテキストドリブンサンプリングを可能にするものである。これは、CLIPの埋め込みを条件とした拡散モデルを、事前に学習したStyleGANの潜在ベクトルをサンプリングするために学習することで実現されます(これをclip2latentと呼びます)。CLIPの画像とテキストの埋め込み間の整合を利用し、条件付き拡散モデルの学習にテキストラベル付きデータを必要としない。また、CLIPの画像とテキストの埋め込みを利用することで、条件付き拡散モデルの学習に必要なテキストラベル付きデータが不要となり、高解像度(1024×1024ピクセル)の画像を高速にサンプリング、高画質、低トレーニング計算量・データ量で生成できることを実証しています。また、よく研究されているStyleGANアーキテクチャを用いることで、さらなる微調整をすることなく、既存の手法を直接適用して生成された画像を制御・変更することができ、テキストから画像へのパイプラインにさらなる制御層を追加できることも示しています。

要約(オリジナル)

We introduce a new method to efficiently create text-to-image models from a pre-trained CLIP and StyleGAN. It enables text driven sampling with an existing generative model without any external data or fine-tuning. This is achieved by training a diffusion model conditioned on CLIP embeddings to sample latent vectors of a pre-trained StyleGAN, which we call clip2latent. We leverage the alignment between CLIP’s image and text embeddings to avoid the need for any text labelled data for training the conditional diffusion model. We demonstrate that clip2latent allows us to generate high-resolution (1024×1024 pixels) images based on text prompts with fast sampling, high image quality, and low training compute and data requirements. We also show that the use of the well studied StyleGAN architecture, without further fine-tuning, allows us to directly apply existing methods to control and modify the generated images adding a further layer of control to our text-to-image pipeline.

arxiv情報

著者 Justin N. M. Pinkney,Chuan Li
発行日 2022-10-05 15:49:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク