Bring Metric Functions into Diffusion Models


本論文では、学習において付加的なメトリック関数を効果的に組み込むことにより、デノイジング拡散確率モデル(DDPM)を改善するカスケード拡散モデル(Cascaded Diffusion Model: Cas-DM)を紹介する。LPIPS損失のようなメトリック関数は、スコアマッチングから得られる一貫性モデルにおいて非常に効果的であることが証明されている。しかし、拡散モデルの場合、メトリック関数を追加する方法論と有効性は不明確なままである。一つの大きな課題は、各ステップでDDPMによって予測されるノイズと、メトリック関数がうまく機能する望ましいきれいな画像との間のミスマッチである。この問題に対処するため、我々はCas-DMを提案する。Cas-DMは2つのネットワークモジュールをカスケード接続し、拡散モデル学習にメトリック関数を効果的に適用するネットワークアーキテクチャである。最初のモジュールは標準的なDDPMに似ており、追加されたノイズを予測するように学習し、メトリック関数の影響を受けない。2番目のカスケード接続されたモジュールは、きれいな画像を予測するように学習し、それによってメトリック関数の計算を容易にする。実験結果は、提案する拡散モデルのバックボーンがLPIPS損失の有効利用を可能にし、様々な確立されたベンチマークにおいて最先端の画質(FID、sFID、IS)をもたらすことを示している。


We introduce a Cascaded Diffusion Model (Cas-DM) that improves a Denoising Diffusion Probabilistic Model (DDPM) by effectively incorporating additional metric functions in training. Metric functions such as the LPIPS loss have been proven highly effective in consistency models derived from the score matching. However, for the diffusion counterparts, the methodology and efficacy of adding extra metric functions remain unclear. One major challenge is the mismatch between the noise predicted by a DDPM at each step and the desired clean image that the metric function works well on. To address this problem, we propose Cas-DM, a network architecture that cascades two network modules to effectively apply metric functions to the diffusion model training. The first module, similar to a standard DDPM, learns to predict the added noise and is unaffected by the metric function. The second cascaded module learns to predict the clean image, thereby facilitating the metric function computation. Experiment results show that the proposed diffusion model backbone enables the effective use of the LPIPS loss, leading to state-of-the-art image quality (FID, sFID, IS) on various established benchmarks.


著者 Jie An,Zhengyuan Yang,Jianfeng Wang,Linjie Li,Zicheng Liu,Lijuan Wang,Jiebo Luo
発行日 2024-01-04 18:55:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, DeepL

カテゴリー: cs.CV パーマリンク