Towards a mathematical theory for consistency training in diffusion models

要約

拡散モデルのサンプリング段階での高い計算オーバーヘッドを軽減するために提案された一貫性モデルは、最先端の経験的パフォーマンスを達成しながら、シングルステップのサンプリングを容易にします。
トレーニングフェーズに統合されると、一貫性モデルは、拡散プロセスの任意のタイムステップの任意の点をその開始点にマッピングできる一連の一貫性関数のトレーニングを試みます。
経験的には成功しているにもかかわらず、一貫性トレーニングの包括的な理論的理解は依然として得られていません。
この論文は、一貫性モデルの理論的基礎を確立するための第一歩を踏み出します。
分布内のターゲットに $\varepsilon$ の範囲内でサンプルを生成するには (Wasserstein メトリクスで測定)、一貫性学習のステップ数が $d^{5/2 のオーダーを超えれば十分であることを示します。
}/\varepsilon$、$d$ はデータ ディメンションです。
私たちの理論は、一貫性モデルの妥当性と有効性についての厳密な洞察を提供し、下流の推論タスクにおけるその有用性を明らかにします。

要約(オリジナル)

Consistency models, which were proposed to mitigate the high computational overhead during the sampling phase of diffusion models, facilitate single-step sampling while attaining state-of-the-art empirical performance. When integrated into the training phase, consistency models attempt to train a sequence of consistency functions capable of mapping any point at any time step of the diffusion process to its starting point. Despite the empirical success, a comprehensive theoretical understanding of consistency training remains elusive. This paper takes a first step towards establishing theoretical underpinnings for consistency models. We demonstrate that, in order to generate samples within $\varepsilon$ proximity to the target in distribution (measured by some Wasserstein metric), it suffices for the number of steps in consistency learning to exceed the order of $d^{5/2}/\varepsilon$, with $d$ the data dimension. Our theory offers rigorous insights into the validity and efficacy of consistency models, illuminating their utility in downstream inference tasks.

arxiv情報

著者 Gen Li,Zhihan Huang,Yuting Wei
発行日 2024-02-12 17:07:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.IT, cs.LG, math.IT, math.ST, stat.ML, stat.TH パーマリンク