Closing the ODE-SDE gap in score-based diffusion models through the Fokker-Planck equation

要約

スコアベースの拡散モデルは、確率微分方程式 (SDE) や常微分方程式などの数学的基礎に依存しながら、多くの生成タスクで最先端のパフォーマンスを発揮するため、深い生成モデリングの最も有望なフレームワークの 1 つとして浮上しています。
(ODE)。
経験的に、ODE ベースのサンプルは SDE ベースのサンプルより劣っていることが報告されています。
この論文では、真の SDE ダイナミクス、ニューラル近似、結果として得られるさまざまな近似粒子ダイナミクス、およびそれらに関連するフォッカー プランク方程式を含む、スコアベースの拡散モデルをトレーニングするときに生じるダイナミクスと近似の範囲について厳密に説明します。
およびこれらのフォッカー-プランク方程式のニューラル ネットワーク近似。
スコアベースの拡散モデルの ODE と SDE ダイナミクスの違いを体系的に分析し、それを関連するフォッカー-プランク方程式に関連付けます。
我々は、フォッカー・プランク残差の観点から、ODE と SDE によって誘導された分布の間の Wasserstein 2 距離の理論的な上限を導出します。
また、従来のスコアベースの拡散モデルが ODE 誘発分布と SDE 誘発分布の間に大きな違いを示す可能性があることを数値的に示し、明示的な比較を使用して実証します。
さらに、追加の正則化項としてフォッカー プランク残差を追加することでフォッカー プランク残差を削減すると、ODE と SDE によって誘導される分布間のギャップが縮まることが数値的に示されます。
私たちの実験は、この正則化により ODE によって生成される分布を改善できるが、これには SDE サンプルの品質が低下する可能性があることが示唆されています。

要約(オリジナル)

Score-based diffusion models have emerged as one of the most promising frameworks for deep generative modelling, due to their state-of-the art performance in many generation tasks while relying on mathematical foundations such as stochastic differential equations (SDEs) and ordinary differential equations (ODEs). Empirically, it has been reported that ODE based samples are inferior to SDE based samples. In this paper we rigorously describe the range of dynamics and approximations that arise when training score-based diffusion models, including the true SDE dynamics, the neural approximations, the various approximate particle dynamics that result, as well as their associated Fokker–Planck equations and the neural network approximations of these Fokker–Planck equations. We systematically analyse the difference between the ODE and SDE dynamics of score-based diffusion models, and link it to an associated Fokker–Planck equation. We derive a theoretical upper bound on the Wasserstein 2-distance between the ODE- and SDE-induced distributions in terms of a Fokker–Planck residual. We also show numerically that conventional score-based diffusion models can exhibit significant differences between ODE- and SDE-induced distributions which we demonstrate using explicit comparisons. Moreover, we show numerically that reducing the Fokker–Planck residual by adding it as an additional regularisation term leads to closing the gap between ODE- and SDE-induced distributions. Our experiments suggest that this regularisation can improve the distribution generated by the ODE, however that this can come at the cost of degraded SDE sample quality.

arxiv情報

著者 Teo Deveney,Jan Stanczuk,Lisa Maria Kreusser,Chris Budd,Carola-Bibiane Schönlieb
発行日 2023-11-27 16:44:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.NA, math.NA, stat.ML パーマリンク