You Only Sample Once: Taming One-Step Text-to-Image Synthesis by Self-Cooperative Diffusion GANs

要約

YOSO は、迅速かつスケーラブルで忠実度の高いワンステップ画像合成用に設計された新しい生成モデルです。
YOSO は、拡散プロセスを GAN と統合して、2 つの長所を実現します。
具体的には、デノイズジェネレーター自体が自己協調学習を行い、分散を平滑化します。
私たちの方法が、競争力のあるパフォーマンスを備えたゼロからのワンステップ生成モデルのトレーニングとして機能できることを示します。
さらに、私たちの方法は、LoRA 微調整を使用した場合でも、高品質のワンステップのテキストから画像への合成のために、事前にトレーニングされたテキストから画像への拡散を微調整するように拡張できることを示します。
特に、512 解像度でトレーニングされた画像を 1 ステップで生成できる最初の拡散変換器を提供し、追加の明示的なトレーニングなしで 1024 解像度に適応する機能を備えています。
コードは https://github.com/Luo-Yihong/YOSO で提供されています。

要約(オリジナル)

We introduce YOSO, a novel generative model designed for rapid, scalable, and high-fidelity one-step image synthesis. YOSO integrates the diffusion process with GANs to achieve the best of two worlds. Specifically, we smooth the distribution by the denoising generator itself, performing self-cooperative learning. We show that our method can serve as a one-step generation model training from scratch with competitive performance. Moreover, we show that our method can be extended to finetune pre-trained text-to-image diffusion for high-quality one-step text-to-image synthesis even with LoRA fine-tuning. In particular, we provide the first diffusion transformer that can generate images in one step trained on 512 resolution, with the capability of adapting to 1024 resolution without extra explicit training. Our code is provided at https://github.com/Luo-Yihong/YOSO

arxiv情報

著者 Yihong Luo,Xiaolong Chen,Xinghua Qu,Jing Tang
発行日 2024-07-15 14:51:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク