要約
テキストから画像への合成の最近の成功は、世界を席巻し、一般大衆の想像力をかき立てました。
技術的な観点からも、生成画像モデルを設計するために好まれるアーキテクチャに劇的な変化が見られました。
StyleGANのような技術を使用したGANは、事実上の選択でした。
DALL-E 2 により、自己回帰モデルと拡散モデルは、一夜にして大規模な生成モデルの新しい標準になりました。
この急速な変化は、根本的な問題を提起します: GAN をスケールアップして、LAION のような大規模なデータセットの恩恵を受けることができるでしょうか?
StyleGANアーキテクチャの容量を単純に増やすと、すぐに不安定になることがわかりました。
この制限をはるかに超える新しい GAN アーキテクチャである GigaGAN を紹介し、テキストから画像への合成の実行可能なオプションとして GAN を実証します。
GigaGAN には 3 つの大きな利点があります。
まず、推論時間が桁違いに速く、512px の画像を合成するのにわずか 0.13 秒しかかかりません。
次に、高解像度の画像、たとえば 16 メガピクセルのピクセルを 3.66 秒で合成できます。
最後に、GigaGAN は、潜在補間、スタイル混合、ベクトル算術演算など、さまざまな潜在空間編集アプリケーションをサポートしています。
要約(オリジナル)
The recent success of text-to-image synthesis has taken the world by storm and captured the general public’s imagination. From a technical standpoint, it also marked a drastic change in the favored architecture to design generative image models. GANs used to be the de facto choice, with techniques like StyleGAN. With DALL-E 2, auto-regressive and diffusion models became the new standard for large-scale generative models overnight. This rapid shift raises a fundamental question: can we scale up GANs to benefit from large datasets like LAION? We find that na\’Ively increasing the capacity of the StyleGAN architecture quickly becomes unstable. We introduce GigaGAN, a new GAN architecture that far exceeds this limit, demonstrating GANs as a viable option for text-to-image synthesis. GigaGAN offers three major advantages. First, it is orders of magnitude faster at inference time, taking only 0.13 seconds to synthesize a 512px image. Second, it can synthesize high-resolution images, for example, 16-megapixel pixels in 3.66 seconds. Finally, GigaGAN supports various latent space editing applications such as latent interpolation, style mixing, and vector arithmetic operations.
arxiv情報
著者 | Minguk Kang,Jun-Yan Zhu,Richard Zhang,Jaesik Park,Eli Shechtman,Sylvain Paris,Taesung Park |
発行日 | 2023-03-09 18:59:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google