One-Step Offline Distillation of Diffusion-based Models via Koopman Modeling

要約

拡散ベースの生成モデルは並外れたパフォーマンスを実証していますが、それらの反復サンプリング手順は計算上高価のままです。
このコストを緩和する顕著な戦略は蒸留であり、オフライン蒸留は効率、モジュール性、柔軟性の点で特定の利点を提供します。
この作業では、原則的な蒸留フレームワークを動機付ける2つの重要な観察結果を特定します。(1)動的システム理論のレンズを通じて拡散モデルが見られている一方で、強力で採用されていないツールをさらに活用できます。
(2)拡散モデルは、潜在空間に構造化された意味的に一貫した軌跡を本質的に課します。
これらの観察に基づいて、Koopman蒸留モデルKDMを紹介します。これは、変換された空間で非線形ダイナミクスを直線的に表現するためのKoopman Theory-A Classical Frameworkに基づいた新しいオフライン蒸留アプローチです。
KDMは、学習した線形演算子がそれらを前方に伝播する埋め込みスペースに騒々しい入力をエンコードし、その後にクリーンサンプルを再構築するデコーダーが続きます。
これにより、セマンティックフィデリティを維持しながら、シングルステップの生成が可能になります。
私たちはアプローチの理論的正当化を提供します。(1)穏やかな仮定の下で、学習した拡散ダイナミクスは有限の次元Koopman表現を認めます。
(2)Koopman潜在スペースの近接性は、生成された出力のセマンティックな類似性と相関しており、効果的な軌道アライメントを可能にします。
経験的には、KDMは標準のオフライン蒸留ベンチマーク全体で最先端のパフォーマンスを達成し、単一の世代のステップでFIDスコアを最大40%改善します。
実験セットアップのすべての実装の詳細とコードは、github-https://github.com/azencot-group/kdm、またはプロジェクトページ-https://sites.google.com/view/koopman-distilation-modelに提供されています。

要約(オリジナル)

Diffusion-based generative models have demonstrated exceptional performance, yet their iterative sampling procedures remain computationally expensive. A prominent strategy to mitigate this cost is distillation, with offline distillation offering particular advantages in terms of efficiency, modularity, and flexibility. In this work, we identify two key observations that motivate a principled distillation framework: (1) while diffusion models have been viewed through the lens of dynamical systems theory, powerful and underexplored tools can be further leveraged; and (2) diffusion models inherently impose structured, semantically coherent trajectories in latent space. Building on these observations, we introduce the Koopman Distillation Model KDM, a novel offline distillation approach grounded in Koopman theory-a classical framework for representing nonlinear dynamics linearly in a transformed space. KDM encodes noisy inputs into an embedded space where a learned linear operator propagates them forward, followed by a decoder that reconstructs clean samples. This enables single-step generation while preserving semantic fidelity. We provide theoretical justification for our approach: (1) under mild assumptions, the learned diffusion dynamics admit a finite-dimensional Koopman representation; and (2) proximity in the Koopman latent space correlates with semantic similarity in the generated outputs, allowing for effective trajectory alignment. Empirically, KDM achieves state-of-the-art performance across standard offline distillation benchmarks, improving FID scores by up to 40% in a single generation step. All implementation details and code for the experimental setups are provided in our GitHub – https://github.com/azencot-group/KDM, or in our project page – https://sites.google.com/view/koopman-distillation-model.

arxiv情報

著者 Nimrod Berman,Ilan Naiman,Moshe Eliasof,Hedi Zisling,Omri Azencot
発行日 2025-05-20 14:05:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク