Long and Short Guidance in Score identity Distillation for One-Step Text-to-Image Generation

要約

広範なテキストと画像のペアでトレーニングされた拡散ベースのテキストから画像への生成モデルは、テキストの説明と一致するフォトリアリスティックな画像を生成する能力を示しています。
ただし、これらのモデルの重大な制限は、サンプル生成が遅いことであり、同じネットワークを介した反復的な改良が必要です。
この論文では、実際のトレーニング データを使用せずに、事前トレーニングされた安定拡散モデルを効率的に抽出するためのロングおよびショート分類子フリー ガイダンス (LSG) を開発することにより、スコア同一性抽出 (SiD) を強化します。
SiD は、実際の計算のために提案された LSG とともにスコアアイデンティティベースの近似を利用して、モデルベースの明示的なスコアマッチング損失を最適化することを目的としています。
LSG を搭載した SiD は、ワンステップ ジェネレーターで合成されたフェイク イメージのみを使用してトレーニングすることにより、FID スコアと CLIP スコアを急速に向上させ、競争力のある CLIP スコアを維持しながら最先端の FID パフォーマンスを実現します。
具体的には、Stable Diffusion 1.5 のデータフリー蒸留は、COCO-2014 検証セットで記録的に低い FID 8.15 を達成し、LSG スケール 1.5 で CLIP スコア 0.304、CLIP スコア 0.313 で FID 9.56 を達成しました。
私たちのコードと抽出されたワンステップのテキストから画像へのジェネレーターは、https://github.com/mingyuanzhou/SiD-LSG で入手できます。

要約(オリジナル)

Diffusion-based text-to-image generation models trained on extensive text-image pairs have shown the capacity to generate photorealistic images consistent with textual descriptions. However, a significant limitation of these models is their slow sample generation, which requires iterative refinement through the same network. In this paper, we enhance Score identity Distillation (SiD) by developing long and short classifier-free guidance (LSG) to efficiently distill pretrained Stable Diffusion models without using real training data. SiD aims to optimize a model-based explicit score matching loss, utilizing a score-identity-based approximation alongside the proposed LSG for practical computation. By training exclusively with fake images synthesized with its one-step generator, SiD equipped with LSG rapidly improves FID and CLIP scores, achieving state-of-the-art FID performance while maintaining a competitive CLIP score. Specifically, its data-free distillation of Stable Diffusion 1.5 achieves a record low FID of 8.15 on the COCO-2014 validation set, with a CLIP score of 0.304 at an LSG scale of 1.5, and an FID of 9.56 with a CLIP score of 0.313 at an LSG scale of 2. Our code and distilled one-step text-to-image generators are available at https://github.com/mingyuanzhou/SiD-LSG.

arxiv情報

著者 Mingyuan Zhou,Zhendong Wang,Huangjie Zheng,Hai Huang
発行日 2024-08-08 16:00:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, stat.ML パーマリンク