SDXS: Real-Time One-Step Latent Diffusion Models with Image Conditions

要約

拡散モデルの最近の進歩により、拡散モデルは画像生成の最前線に位置するようになりました。
優れたパフォーマンスにもかかわらず、拡散モデルには欠点がないわけではありません。
これらは、複雑なアーキテクチャと大量の計算要求を特徴とし、反復的なサンプリング プロセスにより大幅な遅延が発生します。
これらの制限を軽減するために、モデルの遅延を大幅に短縮することを目的として、モデルの小型化とサンプリング ステップの削減を含む 2 つのアプローチを導入します。
私たちの方法論は、知識の蒸留を活用して U-Net と画像デコーダーのアーキテクチャを合理化し、特徴マッチングとスコアの蒸留を利用した革新的なワンステップ DM トレーニング手法を導入しています。
SDXS-512 と SDXS-1024 の 2 つのモデルを紹介し、単一の GPU でそれぞれ約 100 FPS (SD v1.5 の 30 倍高速) と 30 FP (SDXL の 60 倍高速) の推論速度を実現します。
さらに、私たちのトレーニングアプローチは、画像条件付き制御における有望なアプリケーションを提供し、効率的な画像間の変換を促進します。

要約(オリジナル)

Recent advancements in diffusion models have positioned them at the forefront of image generation. Despite their superior performance, diffusion models are not without drawbacks; they are characterized by complex architectures and substantial computational demands, resulting in significant latency due to their iterative sampling process. To mitigate these limitations, we introduce a dual approach involving model miniaturization and a reduction in sampling steps, aimed at significantly decreasing model latency. Our methodology leverages knowledge distillation to streamline the U-Net and image decoder architectures, and introduces an innovative one-step DM training technique that utilizes feature matching and score distillation. We present two models, SDXS-512 and SDXS-1024, achieving inference speeds of approximately 100 FPS (30x faster than SD v1.5) and 30 FP (60x faster than SDXL) on a single GPU, respectively. Moreover, our training approach offers promising applications in image-conditioned control, facilitating efficient image-to-image translation.

arxiv情報

著者 Yuda Song,Zehao Sun,Xuanwu Yin
発行日 2024-03-25 11:16:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク