Text-Free Learning of a Natural Language Interface for Pretrained Face Generators

要約

我々は、テキストガイド付きの人間の顔合成のために、事前学習されたGANを適応させる自然言語インターフェースであるFast text2StyleGANを提案する。CLIP(Contrastive Language-Image Pre-training)を活用することで、学習時にテキストデータを必要としない。高速なtext2StyleGANは条件付き変分オートエンコーダ(CVAE)として定式化され、テスト時に生成される画像に特別な制御と多様性を提供します。我々のモデルは、新しいテキストプロンプトに遭遇した際に、GANやCLIPの再トレーニングや微調整を必要としない。また、先行研究とは対照的に、テスト時の最適化に依存しないため、本手法は先行研究よりも桁違いに高速である。経験的に、FFHQデータセットにおいて、本手法は先行研究と比較して、様々な詳細度の自然言語記述から、より速く、より正確な画像を生成することが可能である。

要約(オリジナル)

We propose Fast text2StyleGAN, a natural language interface that adapts pre-trained GANs for text-guided human face synthesis. Leveraging the recent advances in Contrastive Language-Image Pre-training (CLIP), no text data is required during training. Fast text2StyleGAN is formulated as a conditional variational autoencoder (CVAE) that provides extra control and diversity to the generated images at test time. Our model does not require re-training or fine-tuning of the GANs or CLIP when encountering new text prompts. In contrast to prior work, we do not rely on optimization at test time, making our method orders of magnitude faster than prior work. Empirically, on FFHQ dataset, our method offers faster and more accurate generation of images from natural language descriptions with varying levels of detail compared to prior work.

arxiv情報

著者 Xiaodan Du,Raymond A. Yeh,Nicholas Kolkin,Eli Shechtman,Greg Shakhnarovich
発行日 2022-09-08 17:56:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG パーマリンク