UFOGen: You Forward Once Large Scale Text-to-Image Generation via Diffusion GANs

要約

テキストから画像への拡散モデルは、テキストのプロンプトを一貫した画像に変換する際に優れた機能を実証してきましたが、推論の計算コストは​​依然として課題となっています。
この問題に対処するために、超高速のワンステップのテキストから画像への合成のために設計された新しい生成モデルである UFOGen を紹介します。
サンプラーの改善や拡散モデルの蒸留技術の採用に焦点を当てた従来のアプローチとは対照的に、UFOGen はハイブリッド手法を採用し、拡散モデルを GAN の目的と統合します。
新しく導入された拡散 GAN 対物レンズと事前トレーニングされた拡散モデルによる初期化を活用する UFOGen は、テキストの説明に基づいて条件付けされた高品質の画像を 1 ステップで効率的に生成することに優れています。
従来のテキストから画像への生成を超えて、UFOGen はアプリケーションの多用途性を示します。
特に、UFOGen は、ワンステップのテキストから画像への生成と多様な下流タスクを可能にする先駆的なモデルの 1 つであり、効率的な生成モデルの状況に大きな進歩をもたらします。

要約(オリジナル)

Text-to-image diffusion models have demonstrated remarkable capabilities in transforming textual prompts into coherent images, yet the computational cost of their inference remains a persistent challenge. To address this issue, we present UFOGen, a novel generative model designed for ultra-fast, one-step text-to-image synthesis. In contrast to conventional approaches that focus on improving samplers or employing distillation techniques for diffusion models, UFOGen adopts a hybrid methodology, integrating diffusion models with a GAN objective. Leveraging a newly introduced diffusion-GAN objective and initialization with pre-trained diffusion models, UFOGen excels in efficiently generating high-quality images conditioned on textual descriptions in a single step. Beyond traditional text-to-image generation, UFOGen showcases versatility in applications. Notably, UFOGen stands among the pioneering models enabling one-step text-to-image generation and diverse downstream tasks, presenting a significant advancement in the landscape of efficient generative models.

arxiv情報

著者 Yanwu Xu,Yang Zhao,Zhisheng Xiao,Tingbo Hou
発行日 2023-11-27 16:51:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク