Learning Mixtures of Gaussians Using the DDPM Objective

要約

最近の研究では、スコア推定を実行できれば、拡散モデルは基本的にあらゆる分布を学習できることが示されています。
しかし、どのような設定でスコア推定が可能であるか、ましてや、このタスクに対する実際的な勾配ベースのアルゴリズムがいつ成功する可能性があるのか​​は、依然としてよくわかっていません。
この研究では、最も基本的な分布族の 1 つである混合ガウス モデルについて、これらの方針に沿って効率的であると証明された最初の結果を示します。
ノイズ除去拡散確率モデル (DDPM) 目的での勾配降下法が、次の 2 つの設定で混合モデルのグランド トゥルース パラメーターを効率的に回復できることを証明します。 1) ランダム初期化を使用した勾配降下法が $d で 2 つの球面ガウスの混合を学習することを示します。
$1/\text{poly}(d)$ で区切られた中心を持つ $ 次元。
2) ウォームスタートによる勾配降下法が、$\Omega(\sqrt{\log(\min(K,d))})$ で分離された中心を持つ $K$ 球面ガウス分布の混合を学習することを示します。
私たちの証明における重要な要素は、スコアベースの手法と、分布学習への他の 2 つのアプローチ、EM アルゴリズムとスペクトル手法との間の新しい接続です。

要約(オリジナル)

Recent works have shown that diffusion models can learn essentially any distribution provided one can perform score estimation. Yet it remains poorly understood under what settings score estimation is possible, let alone when practical gradient-based algorithms for this task can provably succeed. In this work, we give the first provably efficient results along these lines for one of the most fundamental distribution families, Gaussian mixture models. We prove that gradient descent on the denoising diffusion probabilistic model (DDPM) objective can efficiently recover the ground truth parameters of the mixture model in the following two settings: 1) We show gradient descent with random initialization learns mixtures of two spherical Gaussians in $d$ dimensions with $1/\text{poly}(d)$-separated centers. 2) We show gradient descent with a warm start learns mixtures of $K$ spherical Gaussians with $\Omega(\sqrt{\log(\min(K,d))})$-separated centers. A key ingredient in our proofs is a new connection between score-based methods and two other approaches to distribution learning, the EM algorithm and spectral methods.

arxiv情報

著者 Kulin Shah,Sitan Chen,Adam Klivans
発行日 2023-07-03 17:44:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DS, cs.LG, stat.ML パーマリンク