You Only Sample Once: Taming One-Step Text-To-Image Synthesis by Self-Cooperative Diffusion GANs

要約

YOSO は、迅速かつスケーラブルで忠実度の高いワンステップ画像合成用に設計された新しい生成モデルです。
これは、拡散プロセスを GAN と統合することで実現されます。
具体的には、デノイズジェネレーター自体が自己協調学習を行い、分散を平滑化します。
私たちの方法が、競争力のあるパフォーマンスを備えたゼロからのワンステップ生成モデルのトレーニングとして機能できることを示します。
さらに、私たちの方法は、LoRA 微調整を使用した場合でも、高品質のワンステップのテキストから画像への合成のために、事前にトレーニングされたテキストから画像への拡散を微調整するように拡張できることを示します。
特に、明示的なトレーニングなしで 1024 解像度に適応できる機能を備え、512 解像度でトレーニングされた 1 ステップで画像を生成できる最初の拡散変換器を提供します。
コードは https://github.com/Luo-Yihong/YOSO で提供されています。

要約(オリジナル)

We introduce YOSO, a novel generative model designed for rapid, scalable, and high-fidelity one-step image synthesis. This is achieved by integrating the diffusion process with GANs. Specifically, we smooth the distribution by the denoising generator itself, performing self-cooperative learning. We show that our method can serve as a one-step generation model training from scratch with competitive performance. Moreover, we show that our method can be extended to finetune pre-trained text-to-image diffusion for high-quality one-step text-to-image synthesis even with LoRA fine-tuning. In particular, we provide the first diffusion transformer that can generate images in one step trained on 512 resolution, with the capability of adapting to 1024 resolution without explicit training. Our code is provided at https://github.com/Luo-Yihong/YOSO.

arxiv情報

著者 Yihong Luo,Xiaolong Chen,Jing Tang
発行日 2024-03-19 17:34:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク