InstaFlow: One Step is Enough for High-Quality Diffusion-Based Text-to-Image Generation

要約

拡散モデルは、その卓越した品質と創造性により、テキストから画像への生成に革命をもたらしました。
ただし、そのマルチステップのサンプリング プロセスは遅いことが知られており、満足のいく結果を得るには多くの場合数十の推論ステップが必要です。
蒸留によってサンプリング速度を向上させ、計算コストを削減するというこれまでの試みは、機能的な 1 ステップ モデルを実現することに失敗していました。
このペーパーでは、これまで小規模なデータセットにのみ適用されてきた Rectified Flow と呼ばれる最近の手法を検討します。
Rectified Flow の中核は \emph{reflow} プロシージャにあり、確率フローの軌道を直線化し、ノイズと画像間の結合を洗練し、スチューデント モデルによる蒸留プロセスを容易にします。
私たちは、安定拡散 (SD) を超高速ワンステップ モデルに変えるための新しいテキスト条件付きパイプラインを提案します。そこでは、ノイズと画像の間の割り当てを改善する上でリフローが重要な役割を果たすことがわかります。
新しいパイプラインを活用して、私たちの知る限り、SD レベルの画質を備えた初のワンステップ拡散ベースのテキストから画像へのジェネレーターを作成し、MS COCO で 23.3 ドルの FID (Frechet Inception Distance) を達成しました。
2017-5k は、以前の最先端技術である漸進蒸留を大幅に上回りました (FID で $37.2$ $\rightarrow$ $23.3$)。
17 億パラメータの拡張ネットワークを利用することで、FID をさらに 22.4 ドルに改善します。
ワンステップ モデルを \emph{InstaFlow} と呼びます。
MS COCO 2014-30k では、InstaFlow はわずか $0.09$ 秒で $13.1$ の FID をもたらし、$\leq 0.1$ 秒体制で最高であり、最近の StyleGAN-T ($0.1$ 秒で $13.9$) を上回ります。
特に、InstaFlow のトレーニングには 199 A100 GPU 日しかかかりません。
プロジェクトページ:~\url{https://github.com/gnobitab/InstaFlow}。

要約(オリジナル)

Diffusion models have revolutionized text-to-image generation with its exceptional quality and creativity. However, its multi-step sampling process is known to be slow, often requiring tens of inference steps to obtain satisfactory results. Previous attempts to improve its sampling speed and reduce computational costs through distillation have been unsuccessful in achieving a functional one-step model. In this paper, we explore a recent method called Rectified Flow, which, thus far, has only been applied to small datasets. The core of Rectified Flow lies in its \emph{reflow} procedure, which straightens the trajectories of probability flows, refines the coupling between noises and images, and facilitates the distillation process with student models. We propose a novel text-conditioned pipeline to turn Stable Diffusion (SD) into an ultra-fast one-step model, in which we find reflow plays a critical role in improving the assignment between noise and images. Leveraging our new pipeline, we create, to the best of our knowledge, the first one-step diffusion-based text-to-image generator with SD-level image quality, achieving an FID (Frechet Inception Distance) of $23.3$ on MS COCO 2017-5k, surpassing the previous state-of-the-art technique, progressive distillation, by a significant margin ($37.2$ $\rightarrow$ $23.3$ in FID). By utilizing an expanded network with 1.7B parameters, we further improve the FID to $22.4$. We call our one-step models \emph{InstaFlow}. On MS COCO 2014-30k, InstaFlow yields an FID of $13.1$ in just $0.09$ second, the best in $\leq 0.1$ second regime, outperforming the recent StyleGAN-T ($13.9$ in $0.1$ second). Notably, the training of InstaFlow only costs 199 A100 GPU days. Project page:~\url{https://github.com/gnobitab/InstaFlow}.

arxiv情報

著者 Xingchao Liu,Xiwen Zhang,Jianzhu Ma,Jian Peng,Qiang Liu
発行日 2023-09-12 16:42:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク