要約
ノンパラメトリック統計の観点から、大規模サンプルシナリオにおけるスコアベースの拡散モデルサンプリングの漸近誤差を研究します。
カーネルベースのスコア推定器が最適な平均二乗誤差 $\widetilde{O}\left(n^{-1} t^{-\frac{d+2}{2}}(t^{
$p_0*\mathcal{N}(0,t\boldsymbol{I}_d)$ のスコア関数の \frac{d}{2}} \vee 1)\right)$ ($n$ と $d)
$ はサンプルサイズと次元を表し、$t$ は $n$ の多項式によって上下に制限され、$p_0$ は任意のサブガウス分布です。
結果として、これにより、総変動誤差の $\widetilde{O}\left(n^{-1/2} t^{-\frac{d}{4}}\right)$ の上限が得られます。
単なるサブガウス仮定の下で拡散モデルによって生成されたサンプルの分布。
さらに、$p_0$ が $\beta\le 2$ の $\beta$-Sobolev 空間のノンパラメトリック族に属している場合、早期停止戦略を採用することで、拡散モデルがほぼ (対数因子まで) であることがわかります。
) ミニマックス最適。
これにより、ノンパラメトリック族に対する拡散モデルのミニマックス最適性の以前の証明における $p_0$ に関する重要な下限仮定が削除されます。
要約(オリジナル)
We study the asymptotic error of score-based diffusion model sampling in large-sample scenarios from a non-parametric statistics perspective. We show that a kernel-based score estimator achieves an optimal mean square error of $\widetilde{O}\left(n^{-1} t^{-\frac{d+2}{2}}(t^{\frac{d}{2}} \vee 1)\right)$ for the score function of $p_0*\mathcal{N}(0,t\boldsymbol{I}_d)$, where $n$ and $d$ represent the sample size and the dimension, $t$ is bounded above and below by polynomials of $n$, and $p_0$ is an arbitrary sub-Gaussian distribution. As a consequence, this yields an $\widetilde{O}\left(n^{-1/2} t^{-\frac{d}{4}}\right)$ upper bound for the total variation error of the distribution of the sample generated by the diffusion model under a mere sub-Gaussian assumption. If in addition, $p_0$ belongs to the nonparametric family of the $\beta$-Sobolev space with $\beta\le 2$, by adopting an early stopping strategy, we obtain that the diffusion model is nearly (up to log factors) minimax optimal. This removes the crucial lower bound assumption on $p_0$ in previous proofs of the minimax optimality of the diffusion model for nonparametric families.
arxiv情報
著者 | Kaihong Zhang,Caitlyn H. Yin,Feng Liang,Jingbo Liu |
発行日 | 2024-07-23 15:00:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google