要約
スコアベースの拡散モデルは、ターゲット分布からデータをノイズに混乱させる拡散プロセスを逆転させることを学習することで新しいデータを生成し、さまざまな生成タスクにわたって目覚ましい成功を収めています。
優れた経験的パフォーマンスにもかかわらず、既存の理論的保証は、多くの場合、厳しい仮定や次善の収束率によって制約されます。
この論文では、最小限の仮定の下で、広く使用されている SDE ベースのサンプラーであるノイズ除去拡散確率モデル (DDPM) の高速収束理論を確立します。
私たちの分析は、スコア関数の $\ell_{2}$ 精度の推定値が与えられた場合、ターゲット分布と生成された分布の間の合計変動距離は $O(d/T)$ によって上限が定められることを示しています (対数係数は無視します)。
$d$ はデータの次元数、$T$ はステップ数です。
この結果は、有限の一次モーメントを持つ任意のターゲット分布に当てはまります。
さらに、注意深く係数を設計すると、収束率が $O(k/T)$ まで向上することを示します。ここで、$k$ はターゲット データ分布の固有次元です。
これは、DDPM が未知の低次元構造に自動的に適応する能力、つまり自然画像分布の共通の特徴を強調しています。
これらの結果は、逆プロセスの各ステップでエラーがどのように伝播するかを詳細に特徴付ける一連の新しい分析ツールを通じて得られます。
要約(オリジナル)
Score-based diffusion models, which generate new data by learning to reverse a diffusion process that perturbs data from the target distribution into noise, have achieved remarkable success across various generative tasks. Despite their superior empirical performance, existing theoretical guarantees are often constrained by stringent assumptions or suboptimal convergence rates. In this paper, we establish a fast convergence theory for the denoising diffusion probabilistic model (DDPM), a widely used SDE-based sampler, under minimal assumptions. Our analysis shows that, provided $\ell_{2}$-accurate estimates of the score functions, the total variation distance between the target and generated distributions is upper bounded by $O(d/T)$ (ignoring logarithmic factors), where $d$ is the data dimensionality and $T$ is the number of steps. This result holds for any target distribution with finite first-order moment. Moreover, we show that with careful coefficient design, the convergence rate improves to $O(k/T)$, where $k$ is the intrinsic dimension of the target data distribution. This highlights the ability of DDPM to automatically adapt to unknown low-dimensional structures, a common feature of natural image distributions. These results are achieved through a novel set of analytical tools that provides a fine-grained characterization of how the error propagates at each step of the reverse process.
arxiv情報
著者 | Gen Li,Yuling Yan |
発行日 | 2025-01-22 16:45:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google