GALIP: Generative Adversarial CLIPs for Text-to-Image Synthesis

要約

テキストから忠実度の高い複雑な画像を合成することは困難です。
大規模な事前トレーニングに基づいて、自己回帰モデルと拡散モデルは写真のようにリアルな画像を合成できます。
これらの大規模なモデルは目覚ましい進歩を遂げていますが、3 つの欠点が残っています。
1) これらのモデルは、優れたパフォーマンスを達成するために膨大なトレーニング データとパラメーターを必要とします。
2) 多段階の生成設計により、画像合成プロセスが大幅に遅くなります。
3) 合成された視覚的特徴は制御が難しく、繊細に設計されたプロンプトが必要です。
高品質、効率的、高速、かつ制御可能なテキストから画像への合成を可能にするために、Generative Adversarial CLIP、すなわち GALIP を提案します。
GALIP は、ディスクリミネーターとジェネレーターの両方で強力な事前トレーニング済みの CLIP モデルを活用します。
具体的には、CLIP ベースの識別器を提案します。
CLIP の複雑なシーンを理解する能力により、弁別器は画質を正確に評価できます。
さらに、ブリッジ機能とプロンプトを介してCLIPから視覚的な概念を誘導するCLIPを利用したジェネレーターを提案します。
CLIP に統合されたジェネレーターとディスクリミネーターはトレーニング効率を高め、その結果、モデルに必要なトレーニング データは約 3%、学習可能なパラメーターは 6% のみであり、大規模な事前トレーニング済みの自己回帰および拡散モデルに匹敵する結果を達成します。
さらに、私たちのモデルは 120 倍の合成速度を達成し、GAN から滑らかな潜在空間を継承します。
広範な実験結果は、当社の GALIP の優れた性能を示しています。
コードは https://github.com/tobran/GALIP で入手できます。

要約(オリジナル)

Synthesizing high-fidelity complex images from text is challenging. Based on large pretraining, the autoregressive and diffusion models can synthesize photo-realistic images. Although these large models have shown notable progress, there remain three flaws. 1) These models require tremendous training data and parameters to achieve good performance. 2) The multi-step generation design slows the image synthesis process heavily. 3) The synthesized visual features are difficult to control and require delicately designed prompts. To enable high-quality, efficient, fast, and controllable text-to-image synthesis, we propose Generative Adversarial CLIPs, namely GALIP. GALIP leverages the powerful pretrained CLIP model both in the discriminator and generator. Specifically, we propose a CLIP-based discriminator. The complex scene understanding ability of CLIP enables the discriminator to accurately assess the image quality. Furthermore, we propose a CLIP-empowered generator that induces the visual concepts from CLIP through bridge features and prompts. The CLIP-integrated generator and discriminator boost training efficiency, and as a result, our model only requires about 3% training data and 6% learnable parameters, achieving comparable results to large pretrained autoregressive and diffusion models. Moreover, our model achieves 120 times faster synthesis speed and inherits the smooth latent space from GAN. The extensive experimental results demonstrate the excellent performance of our GALIP. Code is available at https://github.com/tobran/GALIP.

arxiv情報

著者 Ming Tao,Bing-Kun Bao,Hao Tang,Changsheng Xu
発行日 2023-01-30 14:58:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク