SciRE-Solver: Accelerating Diffusion Models Sampling by Score-integrand Solver with Recursive Difference

要約

拡散モデル (DM) は、画像、オーディオ、ビデオ生成の分野で大きな進歩を遂げました。
DM の欠点の 1 つは、反復プロセスが遅いことです。
高速サンプリングのための最近のアルゴリズムは、微分方程式の観点から設計されています。
ただし、テイラー展開に基づく高次のアルゴリズムでは、大規模でよく訓練されたニューラル ネットワークの複雑さにより、スコア関数の導関数の推定が困難になります。
この動機に動かされて、この研究では、DM の領域でスコア関数の導関数を計算する再帰差分 (RD) 法を導入します。
RD 法とスコア積分関数の切り捨てテイラー展開に基づいて、DM のサンプリングを加速するための収束次数保証を備えた SciRE-Solver を提案します。
RD 法の有効性をさらに調査するために、RD 法と指数積分器に基づいた SciREI-Solver という名前のバリアントも提案します。
RD 法を使用した私たちの提案するサンプリング アルゴリズムは、さまざまな数のスコア関数評価の下で、離散時間と連続時間の両方の事前トレーニング済み DM にわたって、既存のトレーニング不要のサンプリング アルゴリズムと比較して最先端 (SOTA) FID を達成します。
(NFE)。
注目すべきことに、小型の NFE を使用した SciRE-Solver は、元の論文で 1000 ドル以上の NFE を使用した一部の事前トレーニング済みモデルによって達成される FID を超える有望な可能性を示しています。
たとえば、CIFAR-10 では、連続時間 DM の場合は $100$ NFE で $2.40$ FID の SOTA 値に達し、CIFAR-10 での離散時間 DM の場合は $84$ NFE で $3.15$ FID の SOTA 値に達します。
CelebA の離散時間 DM の $18$ (50) NFE 64$\times$64。

要約(オリジナル)

Diffusion models (DMs) have made significant progress in the fields of image, audio, and video generation. One downside of DMs is their slow iterative process. Recent algorithms for fast sampling are designed from the perspective of differential equations. However, in higher-order algorithms based on Taylor expansion, estimating the derivative of the score function becomes intractable due to the complexity of large-scale, well-trained neural networks. Driven by this motivation, in this work, we introduce the recursive difference (RD) method to calculate the derivative of the score function in the realm of DMs. Based on the RD method and the truncated Taylor expansion of score-integrand, we propose SciRE-Solver with the convergence order guarantee for accelerating sampling of DMs. To further investigate the effectiveness of the RD method, we also propose a variant named SciREI-Solver based on the RD method and exponential integrator. Our proposed sampling algorithms with RD method attain state-of-the-art (SOTA) FIDs in comparison to existing training-free sampling algorithms, across both discrete-time and continuous-time pre-trained DMs, under various number of score function evaluations (NFE). Remarkably, SciRE-Solver using a small NFEs demonstrates promising potential to surpass the FID achieved by some pre-trained models in their original papers using no fewer than $1000$ NFEs. For example, we reach SOTA value of $2.40$ FID with $100$ NFE for continuous-time DM and of $3.15$ FID with $84$ NFE for discrete-time DM on CIFAR-10, as well as of $2.17$ (2.02) FID with $18$ (50) NFE for discrete-time DM on CelebA 64$\times$64.

arxiv情報

著者 Shigui Li,Wei Chen,Delu Zeng
発行日 2023-09-11 15:39:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.DS, stat.CO, stat.ML パーマリンク