Elucidating the solution space of extended reverse-time SDE for diffusion models

要約

拡散モデル (DM) は、さまざまな生成モデリング タスクにおいて強力な画像生成機能を実証します。
それにもかかわらず、主な制限はサンプリング速度が遅いことであり、高品質の画像を生成するには大規模なニューラル ネットワークを介した数百または数千の連続した関数評価が必要です。
DM からのサンプリングは、対応する確率微分方程式 (SDE) または常微分方程式 (ODE) を解くものとみなすことができます。
この作業では、サンプリング プロセスを拡張逆時間 SDE (ER SDE) として定式化し、以前の探索を ODE と SDE に統合します。
ER SDE ソリューションの半線形構造を活用して、VP SDE と VE SDE に対してそれぞれ厳密なソリューションと任意の高次の近似ソリューションを提供します。
ER SDE の解空間に基づいて、高速サンプリングの点で SDE ソルバーよりも ODE ソルバーの優れたパフォーマンスを解明する数学的洞察が得られます。
さらに、VP SDE ソルバーが VE SDE ソルバーと同等であることを明らかにします。
最後に、確率的サンプラーの効率を前例のないレベルに引き上げる、高速でトレーニング不要のサンプラーである ER-SDE ソルバーを考案しました。
実験結果は、ImageNet 64$\times$64 データセット上で 20 の関数評価で 3.45 FID、50 の関数評価で 2.24 FID を達成したことを示しています。

要約(オリジナル)

Diffusion models (DMs) demonstrate potent image generation capabilities in various generative modeling tasks. Nevertheless, their primary limitation lies in slow sampling speed, requiring hundreds or thousands of sequential function evaluations through large neural networks to generate high-quality images. Sampling from DMs can be seen as solving corresponding stochastic differential equations (SDEs) or ordinary differential equations (ODEs). In this work, we formulate the sampling process as an extended reverse-time SDE (ER SDE), unifying prior explorations into ODEs and SDEs. Leveraging the semi-linear structure of ER SDE solutions, we offer exact solutions and arbitrarily high-order approximate solutions for VP SDE and VE SDE, respectively. Based on the solution space of the ER SDE, we yield mathematical insights elucidating the superior performance of ODE solvers over SDE solvers in terms of fast sampling. Additionally, we unveil that VP SDE solvers stand on par with their VE SDE counterparts. Finally, we devise fast and training-free samplers, ER-SDE Solvers, elevating the efficiency of stochastic samplers to unprecedented levels. Experimental results demonstrate achieving 3.45 FID in 20 function evaluations and 2.24 FID in 50 function evaluations on the ImageNet 64$\times$64 dataset.

arxiv情報

著者 Qinpeng Cui,Xinyi Zhang,Zongqing Lu,Qingmin Liao
発行日 2023-09-12 12:27:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク