要約
スコアアイデンティティ蒸留 (SiD) は、トレーニング データを必要とせず、事前トレーニング済みの拡散モデルのみを活用することで、画像生成で SOTA パフォーマンスを実現するデータフリーの手法です。
ただし、その最終的なパフォーマンスは、事前トレーニングされたモデルが拡散プロセスのさまざまな段階で真のデータ スコアをどれだけ正確に取得するかによって制限されます。
本稿では、実画像と敵対的損失を組み込むことで生成品質を向上させるだけでなく、蒸留効率も向上させるSiDA (SiD with Adversarial Loss) を紹介します。
SiDA は、ジェネレーターのスコア ネットワークからのエンコーダーを識別子として利用し、実際の画像と SiD によって生成された画像を区別する能力を高めます。
敵対的損失は各 GPU 内でバッチ正規化され、元の SiD 損失と結合されます。
この統合により、GPU バッチごとの平均「偽り性」がピクセルベースの SiD 損失に効果的に組み込まれ、SiDA が最初から、または既存のものを微調整することによってシングルステップ ジェネレーターを抽出できるようになります。
SiDA は、最初からトレーニングした場合、以前のモデルよりも大幅に高速に収束し、蒸留前の SiD ジェネレーターから微調整する際の初期ウォームアップ期間の後、元のモデルのパフォーマンスを迅速に向上させます。
このワンステップの敵対的蒸留手法は、CIFAR-10 (32×32) および ImageNet (64×64) で事前トレーニングされた EDM 拡散モデルを蒸留する際の生成パフォーマンスの新しいベンチマークを確立し、ImageNet 64×64 で 1.110 の FID スコアを達成します。
ImageNet (512×512) でトレーニングされた EDM2 モデルを抽出する際に、記録的な低い FID スコアを記録し、最大の教師モデルである EDM2-XXL さえも上回ります。
当社の SiDA の結果では、EDM2-XS で 2.156、S で 1.669、M で 1.488、L で 1.413、XL で 1.379、XXL で 1.366 の FID スコアが記録され、すべてのモデル サイズにわたって大幅な改善が示されています。
私たちのオープンソース コードは SiD コードベースに統合されます。
要約(オリジナル)
Score identity Distillation (SiD) is a data-free method that has achieved SOTA performance in image generation by leveraging only a pretrained diffusion model, without requiring any training data. However, its ultimate performance is constrained by how accurate the pretrained model captures the true data scores at different stages of the diffusion process. In this paper, we introduce SiDA (SiD with Adversarial Loss), which not only enhances generation quality but also improves distillation efficiency by incorporating real images and adversarial loss. SiDA utilizes the encoder from the generator’s score network as a discriminator, boosting its ability to distinguish between real images and those generated by SiD. The adversarial loss is batch-normalized within each GPU and then combined with the original SiD loss. This integration effectively incorporates the average ‘fakeness’ per GPU batch into the pixel-based SiD loss, enabling SiDA to distill a single-step generator either from scratch or by fine-tuning an existing one. SiDA converges significantly faster than its predecessor when trained from scratch, and swiftly improves upon the original model’s performance after an initial warmup period during fine-tuning from a pre-distilled SiD generator. This one-step adversarial distillation method establishes new benchmarks in generation performance when distilling EDM diffusion models pretrained on CIFAR-10 (32×32) and ImageNet (64×64), achieving FID score of 1.110 on ImageNet 64×64. It sets record-low FID scores when distilling EDM2 models trained on ImageNet (512×512), surpassing even the largest teacher model, EDM2-XXL. Our SiDA’s results record FID scores of 2.156 for EDM2-XS, 1.669 for S, 1.488 for M, 1.413 for L, 1.379 for XL, and 1.366 for XXL, demonstrating significant improvements across all model sizes. Our open-source code will be integrated into the SiD codebase.
arxiv情報
著者 | Mingyuan Zhou,Huangjie Zheng,Yi Gu,Zhendong Wang,Hai Huang |
発行日 | 2024-11-20 17:20:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google