S4S: Solving for a Diffusion Model Solver

要約

拡散モデル(DMS)は、ランダムノイズから起動し、逆タイムの通常の微分方程式(ODE)を繰り返し解くことにより、データ分布からサンプルを作成します。
反復ソリューションの各ステップには高価な神経関数評価(NFE)が必要であるため、基礎となるモデルを変更せずに、これらの拡散ODをほぼ解決することに大きな関心があります。
ただし、いくつかのNFEレジームでは、従来のODEソルバーを使用して、真のODE進化を追跡することは根本的に不可能であることがわかります。
この作業では、DMの優れたソルバーを学習する新しい方法を提案します。これは、ソルバー(S4S)の解決を呼び出します。
S4Sは、強力な教師ソルバーの出力と一致することを学習することにより、ソルバーを直接最適化して優れた生成品質を取得します。
条件付きサンプリングと無条件サンプリングの両方で、ピクセル空間や潜在スペースDMを含む、6つの異なる事前訓練を受けたDMでS4を評価します。
すべての設定で、S4は従来のODEソルバーと比較してサンプル品質を均一に改善します。
さらに、私たちの方法は軽量でデータがないため、パフォーマンスを改善するために、離散化スケジュールまたはアーキテクチャの上にブラックボックスに接続できます。
これに加えて、ソルバーと離散化スケジュールの両方を最適化するS4S-ALTも提案します。
5つのNFEを使用してDMソルバーの完全な設計スペースを活用することにより、CIFAR10で3.73、MS-COCOで13.26のFIDを達成し、以前のトレーニングフリーのODEメソッドで$ 1.5 \ Times $の改善を表します。

要約(オリジナル)

Diffusion models (DMs) create samples from a data distribution by starting from random noise and iteratively solving a reverse-time ordinary differential equation (ODE). Because each step in the iterative solution requires an expensive neural function evaluation (NFE), there has been significant interest in approximately solving these diffusion ODEs with only a few NFEs without modifying the underlying model. However, in the few NFE regime, we observe that tracking the true ODE evolution is fundamentally impossible using traditional ODE solvers. In this work, we propose a new method that learns a good solver for the DM, which we call Solving for the Solver (S4S). S4S directly optimizes a solver to obtain good generation quality by learning to match the output of a strong teacher solver. We evaluate S4S on six different pre-trained DMs, including pixel-space and latent-space DMs for both conditional and unconditional sampling. In all settings, S4S uniformly improves the sample quality relative to traditional ODE solvers. Moreover, our method is lightweight, data-free, and can be plugged in black-box on top of any discretization schedule or architecture to improve performance. Building on top of this, we also propose S4S-Alt, which optimizes both the solver and the discretization schedule. By exploiting the full design space of DM solvers, with 5 NFEs, we achieve an FID of 3.73 on CIFAR10 and 13.26 on MS-COCO, representing a $1.5\times$ improvement over previous training-free ODE methods.

arxiv情報

著者 Eric Frankel,Sitan Chen,Jerry Li,Pang Wei Koh,Lillian J. Ratliff,Sewoong Oh
発行日 2025-02-24 18:55:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク