要約
拡散モデルの精度に関する既存の理論的研究のほとんどは、重要ではあるものの、スコア関数が特定の精度に近似されていると仮定し、生成誤差を制御するためにこのアプリオリな限界を使用します。
この記事では、生成プロセス全体、つまりトレーニングとサンプリングの両方について、初めて定量的な理解を提供します。
より正確には、勾配降下下でのノイズ除去スコア マッチングの非漸近収束分析を実行します。
さらに、分散爆発モデルのための洗練されたサンプリング誤差分析も提供されます。
これら 2 つの結果を組み合わせると、完全なエラー分析が得られ、効果的な生成のためのトレーニングとサンプリングのプロセスを設計する方法が (繰り返しになりますが、今回は理論的に) 明らかになります。
たとえば、私たちの理論は、[Karras et al.
2022]。
また、[Karras et al.
2022] は、[Song et al.
2020]。
要約(オリジナル)
Most existing theoretical investigations of the accuracy of diffusion models, albeit significant, assume the score function has been approximated to a certain accuracy, and then use this a priori bound to control the error of generation. This article instead provides a first quantitative understanding of the whole generation process, i.e., both training and sampling. More precisely, it conducts a non-asymptotic convergence analysis of denoising score matching under gradient descent. In addition, a refined sampling error analysis for variance exploding models is also provided. The combination of these two results yields a full error analysis, which elucidates (again, but this time theoretically) how to design the training and sampling processes for effective generation. For instance, our theory implies a preference toward noise distribution and loss weighting that qualitatively agree with the ones used in [Karras et al. 2022]. It also provides some perspectives on why the time and variance schedule used in [Karras et al. 2022] could be better tuned than the pioneering version in [Song et al. 2020].
arxiv情報
著者 | Yuqing Wang,Ye He,Molei Tao |
発行日 | 2024-06-18 17:56:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google