Stable Target Field for Reduced Variance Score Estimation in Diffusion Models

要約

拡散モデルは、固定順拡散プロセスを逆にすることによってサンプルを生成します。
すでに印象的な経験的結果を提供していますが、これらの拡散モデル アルゴリズムは、ノイズ除去スコア マッチングの目的でトレーニング ターゲットの分散を減らすことでさらに改善できます。
このような分散の原因は、データ内の複数のモードが逆経路の方向に影響を与える中間ノイズ分散スケールの処理にあると主張します。
より安定したトレーニング ターゲットとして重み付けされた条件付きスコアを計算するために使用する参照バッチを組み込むことで、問題を解決することを提案します。
この手順が、トレーニング目標の共分散 (の痕跡) を減らすことによって、困難な中間体制に実際に役立つことを示します。
新しい安定したターゲットは、分散の減少に対するバイアスの取引と見なすことができます。このバイアスは、参照バッチ サイズの増加とともに消失します。
経験的に、新しい目的が、一般的な ODE ソルバーと SDE ソルバーの両方を使用して、データセット全体でさまざまな一般的な拡散モデルの画質、安定性、およびトレーニング速度を向上させることを示します。
EDM と組み合わせて使用​​すると、無条件の CIFAR-10 生成タスクでの 35 のネットワーク評価で、現在の SOTA FID が 1.90 になります。
コードは https://github.com/Newbeeer/stf で入手できます。

要約(オリジナル)

Diffusion models generate samples by reversing a fixed forward diffusion process. Despite already providing impressive empirical results, these diffusion models algorithms can be further improved by reducing the variance of the training targets in their denoising score-matching objective. We argue that the source of such variance lies in the handling of intermediate noise-variance scales, where multiple modes in the data affect the direction of reverse paths. We propose to remedy the problem by incorporating a reference batch which we use to calculate weighted conditional scores as more stable training targets. We show that the procedure indeed helps in the challenging intermediate regime by reducing (the trace of) the covariance of training targets. The new stable targets can be seen as trading bias for reduced variance, where the bias vanishes with increasing reference batch size. Empirically, we show that the new objective improves the image quality, stability, and training speed of various popular diffusion models across datasets with both general ODE and SDE solvers. When used in combination with EDM, our method yields a current SOTA FID of 1.90 with 35 network evaluations on the unconditional CIFAR-10 generation task. The code is available at https://github.com/Newbeeer/stf

arxiv情報

著者 Yilun Xu,Shangyuan Tong,Tommi Jaakkola
発行日 2023-02-17 16:19:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク