要約
近年、拡散確率モデル (DPM) の急速な進歩と幅広い応用が見られます。
DPM からのサンプリングは、常微分方程式 (ODE) を解くものとみなすことができます。
期待できるパフォーマンスにもかかわらず、DPM の生成には通常、多数の関数評価 (NFE) が発生するため、多くの時間がかかります。
最近の研究では、高次ソルバーを使用してサンプリングを約 20 ステップに加速しましたが、10 NFE 未満のサンプル品質はまだ改善の可能性があります。
この論文では、ソルバーのオプションの戦略を研究するためのユニファイド サンプリング フレームワーク (USF) を提案します。
このフレームワークの下では、異なるタイムステップで異なる解決戦略を採用することが切り捨て誤差のさらなる減少に役立つ可能性があり、慎重に設計された \emph{ソルバー スケジュール} によりサンプルの品質を大幅に向上させる可能性があることがさらに明らかになりました。
したがって、我々は、各ステップでソルバー戦略を自由に選択し、フレームワークに特有の決定を設計できる指数積分定式化に基づいた新しいサンプリング フレームワークを提案します。
さらに、サンプリングの時間と品質のトレードオフを改善するためにソルバー スケジュールを自動的に最適化する予測子ベースの検索手法である $S^3$ を提案します。
$S^3$ が CIFAR-10、CelebA、ImageNet、LSUN-Bedroom データセットに対する最先端のサンプリング手法を上回る優れたソルバー スケジュールを見つけられることを実証します。
具体的には、CIFAR-10 データセットでは 10 NFE で 2.69 FID、5 NFE で 6.86 FID を達成し、SOTA 手法を大幅に上回りました。
さらに $S^3$ を安定拡散モデルに適用すると、2$\times$ の加速比が得られ、ニューラル ネットワークを再学習することなく、非常に少ないステップでサンプリングが可能であることがわかります。
要約(オリジナル)
Recent years have witnessed the rapid progress and broad application of diffusion probabilistic models (DPMs). Sampling from DPMs can be viewed as solving an ordinary differential equation (ODE). Despite the promising performance, the generation of DPMs usually consumes much time due to the large number of function evaluations (NFE). Though recent works have accelerated the sampling to around 20 steps with high-order solvers, the sample quality with less than 10 NFE can still be improved. In this paper, we propose a unified sampling framework (USF) to study the optional strategies for solver. Under this framework, we further reveal that taking different solving strategies at different timesteps may help further decrease the truncation error, and a carefully designed \emph{solver schedule} has the potential to improve the sample quality by a large margin. Therefore, we propose a new sampling framework based on the exponential integral formulation that allows free choices of solver strategy at each step and design specific decisions for the framework. Moreover, we propose $S^3$, a predictor-based search method that automatically optimizes the solver schedule to get a better time-quality trade-off of sampling. We demonstrate that $S^3$ can find outstanding solver schedules which outperform the state-of-the-art sampling methods on CIFAR-10, CelebA, ImageNet, and LSUN-Bedroom datasets. Specifically, we achieve 2.69 FID with 10 NFE and 6.86 FID with 5 NFE on CIFAR-10 dataset, outperforming the SOTA method significantly. We further apply $S^3$ to Stable-Diffusion model and get an acceleration ratio of 2$\times$, showing the feasibility of sampling in very few steps without retraining the neural network.
arxiv情報
著者 | Enshu Liu,Xuefei Ning,Huazhong Yang,Yu Wang |
発行日 | 2023-12-12 13:19:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google