StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-Image Synthesis


テキストから画像への合成は、大規模な事前トレーニング済み言語モデル、大規模なトレーニング データ、および拡散モデルや自己回帰モデルなどのスケーラブルなモデル ファミリーの導入により、最近大きな進歩を遂げています。
対照的に、敵対的生成ネットワーク (GAN) は単一のフォワード パスのみを必要とします。
私たちが提案するモデル StyleGAN-T は、大容量、多様なデータセットでの安定したトレーニング、強力なテキスト配置、制御可能なバリエーションとテキスト配置のトレードオフなど、大規模なテキストから画像への合成の特定の要件に対応します。


Text-to-image synthesis has recently seen significant progress thanks to large pretrained language models, large-scale training data, and the introduction of scalable model families such as diffusion and autoregressive models. However, the best-performing models require iterative evaluation to generate a single sample. In contrast, generative adversarial networks (GANs) only need a single forward pass. They are thus much faster, but they currently remain far behind the state-of-the-art in large-scale text-to-image synthesis. This paper aims to identify the necessary steps to regain competitiveness. Our proposed model, StyleGAN-T, addresses the specific requirements of large-scale text-to-image synthesis, such as large capacity, stable training on diverse datasets, strong text alignment, and controllable variation vs. text alignment tradeoff. StyleGAN-T significantly improves over previous GANs and outperforms distilled diffusion models – the previous state-of-the-art in fast text-to-image synthesis – in terms of sample quality and speed.


著者 Axel Sauer,Tero Karras,Samuli Laine,Andreas Geiger,Timo Aila
発行日 2023-01-23 16:05:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV, cs.LG パーマリンク