Bespoke Non-Stationary Solvers for Fast Sampling of Diffusion and Flow Models

要約

本論文では、拡散およびフローモデルのサンプル効率を改善するためのソルバー蒸留アプローチである、ビスポーク非定常(BNS)ソルバーを紹介する。BNSソルバーは、既存の数値ODEソルバーを証明的に包含する非定常ソルバー群に基づいており、その結果、これらのベースラインよりもサンプル近似(PSNR)が大幅に改善されている。モデル蒸留と比較して、BNSソルバーは、小さなパラメータ空間($<$200パラメータ)、高速最適化(2桁高速)、サンプルの多様性を維持し、これまでのソルバー蒸留アプローチとは対照的に、低中程度のNFE領域において、漸進蒸留のような標準的な蒸留手法とのギャップをほぼ埋めることができる。例えば、BNSソルバーはクラス条件付きImageNet-64において、16 NFEを用いて45 PSNR / 1.76 FIDを達成している。我々は、条件付き画像生成、テキスト-画像生成、テキスト-2-音声生成のためにBNSソルバーを実験し、全てにおいてサンプル近似(PSNR)の有意な改善を示した。

要約(オリジナル)

This paper introduces Bespoke Non-Stationary (BNS) Solvers, a solver distillation approach to improve sample efficiency of Diffusion and Flow models. BNS solvers are based on a family of non-stationary solvers that provably subsumes existing numerical ODE solvers and consequently demonstrate considerable improvement in sample approximation (PSNR) over these baselines. Compared to model distillation, BNS solvers benefit from a tiny parameter space ($<$200 parameters), fast optimization (two orders of magnitude faster), maintain diversity of samples, and in contrast to previous solver distillation approaches nearly close the gap from standard distillation methods such as Progressive Distillation in the low-medium NFE regime. For example, BNS solver achieves 45 PSNR / 1.76 FID using 16 NFE in class-conditional ImageNet-64. We experimented with BNS solvers for conditional image generation, text-to-image generation, and text-2-audio generation showing significant improvement in sample approximation (PSNR) in all.

arxiv情報

著者 Neta Shaul,Uriel Singer,Ricky T. Q. Chen,Matthew Le,Ali Thabet,Albert Pumarola,Yaron Lipman
発行日 2024-03-02 22:27:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク