要約
この論文では、事前トレーニングされた拡散モデルの生成を加速する、効率的で高速かつ多用途の蒸留方法であるフラッシュ拡散を提案します。
この手法は、COCO2014 および COCO2017 データセットでの数ステップの画像生成で FID と CLIP スコアの点で最先端のパフォーマンスに達しますが、必要なトレーニング時間は GPU 時間数時間のみで、既存の手法よりもトレーニング可能なパラメーターが少なくなります。
効率性に加えて、この方法の多用途性は、テキストから画像への変換、修復、顔の交換、超解像度、UNet ベースのデノイザー (SD1.5、SDXL など) などのさまざまなバックボーンの使用などのいくつかのタスクにわたっても明らかになります。
) または DiT (Pixart-$\alpha$)、およびアダプター。
いずれの場合も、この方法により、非常に高品質の画像生成を維持しながら、サンプリング ステップの数を大幅に減らすことができました。
公式実装は https://github.com/gojasper/flash-diffusion で入手できます。
要約(オリジナル)
In this paper, we propose an efficient, fast, and versatile distillation method to accelerate the generation of pre-trained diffusion models: Flash Diffusion. The method reaches state-of-the-art performances in terms of FID and CLIP-Score for few steps image generation on the COCO2014 and COCO2017 datasets, while requiring only several GPU hours of training and fewer trainable parameters than existing methods. In addition to its efficiency, the versatility of the method is also exposed across several tasks such as text-to-image, inpainting, face-swapping, super-resolution and using different backbones such as UNet-based denoisers (SD1.5, SDXL) or DiT (Pixart-$\alpha$), as well as adapters. In all cases, the method allowed to reduce drastically the number of sampling steps while maintaining very high-quality image generation. The official implementation is available at https://github.com/gojasper/flash-diffusion.
arxiv情報
著者 | Clement Chadebec,Onur Tasar,Eyal Benaroche,Benjamin Aubin |
発行日 | 2024-06-04 14:23:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google