Evaluating the design space of diffusion-based generative models

要約

拡散モデルの精度に関する既存の理論的研究のほとんどは、重要ではあるものの、スコア関数が特定の精度に近似されていると仮定し、生成誤差を制御するためにこのアプリオリな限界を使用します。
この記事では、生成プロセス全体、つまりトレーニングとサンプリングの両方について、初めて定量的な理解を提供します。
より正確には、勾配降下下でのノイズ除去スコア マッチングの非漸近収束分析を実行します。
さらに、分散爆発モデルのための洗練されたサンプリング誤差分析も提供されます。
これら 2 つの結果を組み合わせると、完全なエラー分析が得られ、効果的な生成のためのトレーニングとサンプリングのプロセスを設計する方法が (繰り返しになりますが、今回は理論的に) 明らかになります。
たとえば、私たちの理論は、[Karras et al.
2022]。
また、サンプリングにおける時間と分散スケジュールの選択に関する展望も提供します。スコアが適切にトレーニングされている場合、[Song et al.
2020] の方が望ましいですが、トレーニングが不十分な場合は、[Karras et al.2020] の設計が適しています。
2022]がより好ましい。

要約(オリジナル)

Most existing theoretical investigations of the accuracy of diffusion models, albeit significant, assume the score function has been approximated to a certain accuracy, and then use this a priori bound to control the error of generation. This article instead provides a first quantitative understanding of the whole generation process, i.e., both training and sampling. More precisely, it conducts a non-asymptotic convergence analysis of denoising score matching under gradient descent. In addition, a refined sampling error analysis for variance exploding models is also provided. The combination of these two results yields a full error analysis, which elucidates (again, but this time theoretically) how to design the training and sampling processes for effective generation. For instance, our theory implies a preference toward noise distribution and loss weighting in training that qualitatively agree with the ones used in [Karras et al. 2022]. It also provides perspectives on the choices of time and variance schedules in sampling: when the score is well trained, the design in [Song et al. 2020] is more preferable, but when it is less trained, the design in [Karras et al. 2022] becomes more preferable.

arxiv情報

著者 Yuqing Wang,Ye He,Molei Tao
発行日 2024-07-25 16:01:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.DS, math.OC, math.PR, stat.ML パーマリンク