SwiftBrush: One-Step Text-to-Image Diffusion Model with Variational Score Distillation

要約

テキストから画像への拡散モデルは、テキスト プロンプトから高解像度で多様な画像を生成できるにもかかわらず、反復サンプリング プロセスが遅いという問題が発生することがよくあります。
モデルの蒸留は、これらのモデルを加速するための最も効果的な方向の 1 つです。
ただし、以前の蒸留方法では生成品質を維持できず、実際のデータから、または教師モデルによって合成的に生成されたトレーニング用に大量の画像が必要になります。
この制限に対応して、$\textbf{SwiftBrush}$ という名前の新しい画像フリー蒸留スキームを紹介します。
テキストから 3D への合成からインスピレーションを得る。入力プロンプトと一致する 3D ニューラル放射輝度フィールドは、3D データのグラウンド トゥルースを使用せずに、特殊な損失を介して事前に 2D テキストから画像への拡散から取得できます。
、私たちのアプローチは、同じ損失を再利用して、事前トレーニングされたマルチステップのテキストから画像へのモデルを、単一の推論ステップで忠実度の高い画像を生成できる学生ネットワークに蒸留します。
その単純さにもかかわらず、私たちのモデルは、トレーニング画像データに依存せずに安定拡散と同等の品質の画像を生成できる、最初のワンステップのテキストから画像へのジェネレーターの 1 つとして機能します。
注目すべきことに、SwiftBrush は、COCO-30K ベンチマークで $\textbf{16.67}$ の FID スコアと $\textbf{0.29}$ の CLIP スコアを達成し、競争力のある結果を達成するか、既存の最先端の蒸留を大幅に上回ることさえあります。
テクニック。

要約(オリジナル)

Despite their ability to generate high-resolution and diverse images from text prompts, text-to-image diffusion models often suffer from slow iterative sampling processes. Model distillation is one of the most effective directions to accelerate these models. However, previous distillation methods fail to retain the generation quality while requiring a significant amount of images for training, either from real data or synthetically generated by the teacher model. In response to this limitation, we present a novel image-free distillation scheme named $\textbf{SwiftBrush}$. Drawing inspiration from text-to-3D synthesis, in which a 3D neural radiance field that aligns with the input prompt can be obtained from a 2D text-to-image diffusion prior via a specialized loss without the use of any 3D data ground-truth, our approach re-purposes that same loss for distilling a pretrained multi-step text-to-image model to a student network that can generate high-fidelity images with just a single inference step. In spite of its simplicity, our model stands as one of the first one-step text-to-image generators that can produce images of comparable quality to Stable Diffusion without reliance on any training image data. Remarkably, SwiftBrush achieves an FID score of $\textbf{16.67}$ and a CLIP score of $\textbf{0.29}$ on the COCO-30K benchmark, achieving competitive results or even substantially surpassing existing state-of-the-art distillation techniques.

arxiv情報

著者 Thuan Hoang Nguyen,Anh Tran
発行日 2023-12-08 18:44:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク