Imagine Flash: Accelerating Emu Diffusion Models with Backward Distillation

要約

拡散モデルは強力な生成フレームワークですが、高価な推論が伴います。
既存の加速方法は、画質を損なったり、非常に低いステップ領域で動作する場合の複雑な条件下で失敗したりすることがよくあります。
この研究では、わずか 1 ~ 3 ステップで高忠実度で多様なサンプル生成を可能にする新しい蒸留フレームワークを提案します。
私たちのアプローチは 3 つの主要なコンポーネントで構成されます。(i) 逆方向蒸留。生徒を独自の逆方向軌道に合わせて調整することで、トレーニングと推論の不一致を軽減します。
(ii) 現在の時間ステップに基づいて知識伝達を動的に適応させるシフト再構成損失。
(iii) ノイズ補正。ノイズ予測の特異点に対処することでサンプルの品質を向上させる推論時の手法です。
広範な実験を通じて、当社の手法が定量的指標と人間による評価において既存の競合他社よりも優れていることを実証しました。
驚くべきことに、わずか 3 つのノイズ除去ステップで教師モデルと同等のパフォーマンスを実現し、効率的な高品質の生成を可能にします。

要約(オリジナル)

Diffusion models are a powerful generative framework, but come with expensive inference. Existing acceleration methods often compromise image quality or fail under complex conditioning when operating in an extremely low-step regime. In this work, we propose a novel distillation framework tailored to enable high-fidelity, diverse sample generation using just one to three steps. Our approach comprises three key components: (i) Backward Distillation, which mitigates training-inference discrepancies by calibrating the student on its own backward trajectory; (ii) Shifted Reconstruction Loss that dynamically adapts knowledge transfer based on the current time step; and (iii) Noise Correction, an inference-time technique that enhances sample quality by addressing singularities in noise prediction. Through extensive experiments, we demonstrate that our method outperforms existing competitors in quantitative metrics and human evaluations. Remarkably, it achieves performance comparable to the teacher model using only three denoising steps, enabling efficient high-quality generation.

arxiv情報

著者 Jonas Kohler,Albert Pumarola,Edgar Schönfeld,Artsiom Sanakoyeu,Roshan Sumbaly,Peter Vajda,Ali Thabet
発行日 2024-05-08 17:15:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク