要約
拡散確率モデル (DPM) は、ビジュアル合成において顕著なパフォーマンスを示していますが、サンプリング中に複数の評価が必要なため、計算コストが高くなります。
最近の予測子/修正子拡散サンプラーは、必要な関数評価 (NFE) の数を大幅に削減しましたが、特に大規模な分類子なしガイダンス スケール (CFG) の場合、追加の修正子ステップによって引き起こされる不整合の問題を本質的に抱えています。
このペーパーでは、DC ソルバーと呼ばれる新しい高速 DPM サンプラーを紹介します。これは、動的補償 (DC) を活用して、予測補正サンプラーの位置ずれを軽減します。
動的補償は、サンプリング ステップに適応する補償率によって制御され、サンプリング軌道をグラウンド トゥルース軌道に近づけることによって、わずか 10 データポイントで最適化できます。
さらに、目に見えないサンプリング構成での補償率を即座に予測できるカスケード多項式回帰 (CPR) を提案します。
さらに、提案された動的補償は、予測器専用サンプラーのパフォーマンスを向上させるプラグアンドプレイ モジュールとしても機能することがわかりました。
無条件サンプリングと条件付きサンプリングの両方に関する広範な実験により、当社の DC ソルバーは、最大 1024$\times$1024 までの幅広い解像度で、さまざまな DPM で以前の方法よりもサンプリング品質を一貫して向上できることが実証されました。
特に、無条件 FFHQ では 10.38 FID (NFE=5)、Stable-Diffusion-2.1 では 0.394 MSE (NFE=5、CFG=7.5) を達成しています。
コードは https://github.com/wl-zhao/DC-Solver で入手できます。
要約(オリジナル)
Diffusion probabilistic models (DPMs) have shown remarkable performance in visual synthesis but are computationally expensive due to the need for multiple evaluations during the sampling. Recent predictor-corrector diffusion samplers have significantly reduced the required number of function evaluations (NFE), but inherently suffer from a misalignment issue caused by the extra corrector step, especially with a large classifier-free guidance scale (CFG). In this paper, we introduce a new fast DPM sampler called DC-Solver, which leverages dynamic compensation (DC) to mitigate the misalignment of the predictor-corrector samplers. The dynamic compensation is controlled by compensation ratios that are adaptive to the sampling steps and can be optimized on only 10 datapoints by pushing the sampling trajectory toward a ground truth trajectory. We further propose a cascade polynomial regression (CPR) which can instantly predict the compensation ratios on unseen sampling configurations. Additionally, we find that the proposed dynamic compensation can also serve as a plug-and-play module to boost the performance of predictor-only samplers. Extensive experiments on both unconditional sampling and conditional sampling demonstrate that our DC-Solver can consistently improve the sampling quality over previous methods on different DPMs with a wide range of resolutions up to 1024$\times$1024. Notably, we achieve 10.38 FID (NFE=5) on unconditional FFHQ and 0.394 MSE (NFE=5, CFG=7.5) on Stable-Diffusion-2.1. Code is available at https://github.com/wl-zhao/DC-Solver
arxiv情報
著者 | Wenliang Zhao,Haolin Wang,Jie Zhou,Jiwen Lu |
発行日 | 2024-09-05 17:59:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google