要約
個別のサンプルを介してのみアクセスできる未知の分布からのサンプリングは、生成AIの中核の根本的な問題です。
現在の最先端の方法は、最初にスコア関数(スムーズなログディストリビューションの勾配)を推定し、勾配ベースのサンプリングアルゴリズムを適用する2段階のプロセスに従います。
結果の分布の正確性は、初期サンプルの有限数による一般化エラー、スコアマッチングの誤差、およびサンプリングアルゴリズムによって導入された拡散誤差のいくつかの要因によって影響を受ける可能性があります。
この論文では、ランジュビン拡散サンプラーを使用して、ガウス分布からのシンプルで代表的な設定サンプリングでサンプリングプロセスを分析します。
パイプライン全体の複数のエラーソースから生じるワッサースタインサンプリングエラーのシャープな分析を提供します。
これにより、データ分布の異方性(そのパワースペクトルによってエンコード)が、ノイズ振幅、スコアマッチングと拡散の両方のステップサイズ、および初期サンプルの両方を含むエンドツーエンドサンプリング方法の重要なパラメーターと相互作用する方法を厳密に追跡できます。
特に、Wassersteinサンプリングエラーは、特定のカーネルがメソッドパラメーターに依存するデータパワースペクトルのカーネルタイプのノルムとして表現できることを示しています。
この結果は、ノイズ振幅をステップサイズの選択に適応させるなど、サンプリングの精度を最適化することに関与するトレードオフのさらなる分析の基盤を提供します。
要約(オリジナル)
Sampling from an unknown distribution, accessible only through discrete samples, is a fundamental problem at the core of generative AI. The current state-of-the-art methods follow a two-step process: first estimating the score function (the gradient of a smoothed log-distribution) and then applying a gradient-based sampling algorithm. The resulting distribution’s correctness can be impacted by several factors: the generalization error due to a finite number of initial samples, the error in score matching, and the diffusion error introduced by the sampling algorithm. In this paper, we analyze the sampling process in a simple yet representative setting-sampling from Gaussian distributions using a Langevin diffusion sampler. We provide a sharp analysis of the Wasserstein sampling error that arises from the multiple sources of error throughout the pipeline. This allows us to rigorously track how the anisotropy of the data distribution (encoded by its power spectrum) interacts with key parameters of the end-to-end sampling method, including the noise amplitude, the step sizes in both score matching and diffusion, and the number of initial samples. Notably, we show that the Wasserstein sampling error can be expressed as a kernel-type norm of the data power spectrum, where the specific kernel depends on the method parameters. This result provides a foundation for further analysis of the tradeoffs involved in optimizing sampling accuracy, such as adapting the noise amplitude to the choice of step sizes.
arxiv情報
著者 | Samuel Hurault,Matthieu Terris,Thomas Moreau,Gabriel Peyré |
発行日 | 2025-03-14 17:35:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google