On Inference Stability for Diffusion Models

要約

ノイズ除去確率モデル (DPM) は、多様で高品質な画像の生成に優れた生成モデルの新たな領域を表します。
ただし、DPM の現在のトレーニング方法のほとんどは、タイムステップ間の相関関係を無視することが多く、画像を効果的に生成する際のモデルのパフォーマンスが制限されます。
特に、この問題は、予測軌道と実際の軌道の間の累積推定ギャップによって引き起こされる可能性があることを理論的に指摘しています。
そのギャップを最小限に抑えるために、推定ギャップを削減してサンプリング品質を向上させることを目的とした新しい \textit{sequence-aware} 損失を提案します。
さらに、提案した損失関数が、DPM の従来の損失と比較して推定損失のより厳しい上限であることを理論的に示します。
CIFAR10、CelebA、CelebA-HQ を含むいくつかのベンチマーク データセットの実験結果は、いくつかの DPM ベースラインと比較して、FID とインセプション スコアによって測定された画像汎化品質に関して、提案された方法の顕著な改善を一貫して示しています。
私たちのコードと事前トレーニングされたチェックポイントは、\url{https://github.com/viettmab/SA-DPM} で入手できます。

要約(オリジナル)

Denoising Probabilistic Models (DPMs) represent an emerging domain of generative models that excel in generating diverse and high-quality images. However, most current training methods for DPMs often neglect the correlation between timesteps, limiting the model’s performance in generating images effectively. Notably, we theoretically point out that this issue can be caused by the cumulative estimation gap between the predicted and the actual trajectory. To minimize that gap, we propose a novel \textit{sequence-aware} loss that aims to reduce the estimation gap to enhance the sampling quality. Furthermore, we theoretically show that our proposed loss function is a tighter upper bound of the estimation loss in comparison with the conventional loss in DPMs. Experimental results on several benchmark datasets including CIFAR10, CelebA, and CelebA-HQ consistently show a remarkable improvement of our proposed method regarding the image generalization quality measured by FID and Inception Score compared to several DPM baselines. Our code and pre-trained checkpoints are available at \url{https://github.com/viettmab/SA-DPM}.

arxiv情報

著者 Viet Nguyen,Giang Vu,Tung Nguyen Thanh,Khoat Than,Toan Tran
発行日 2023-12-19 18:57:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク