要約
これまでの研究では、分散保存 (VP) シナリオにおいて、初期の直接ノイズ除去拡散モデル (DDDM) が、マルチステップ サンプリングでさらに優れたパフォーマンスを達成しながら、ワン ステップで高品質の画像を生成できることを実証しました。
しかし、DDDM で使用される Pseudo-LPIPS 損失は、評価の偏りに関する懸念につながります。
ここでは、分散保存 (VP) と分散爆発 (VE) の両方のケースに対して 1 ステップ/複数のステップで画像を生成する統合 DDDM (uDDDM) フレームワークを提案します。
モデルの解パスの存在と一意性、およびサンプリング パスの非交差特性の理論的証明を提供します。
さらに、真の解への収束と収束プロセスの安定性のバランスをとるために、適応型疑似ヒューバー損失関数を提案します。包括的な評価を通じて、uDDDM が CIFAR-10 で利用可能な最高のパフォーマンスの手法に匹敵する FID スコアを達成することを実証します。
VPとVEの両方で。
具体的には、uDDDM は、VE と VP に対してそれぞれ 2.63 と 2.53 の FID を持つ CIFAR10 でワンステップ生成を実現します。
サンプリングを 1000 ステップに拡張することで、VE と VP の FID スコアをそれぞれ 1.71 と 1.65 にさらに下げ、両方のケースで最先端のパフォーマンスを設定しました。
要約(オリジナル)
Previous work has demonstrated that, in the Variance Preserving (VP) scenario, the nascent Directly Denoising Diffusion Models (DDDM) can generate high-quality images in one step while achieving even better performance in multistep sampling. However, the Pseudo-LPIPS loss used in DDDM leads to concerns about the bias in assessment. Here, we propose a unified DDDM (uDDDM) framework that generates images in one-step/multiple steps for both Variance Preserving (VP) and Variance Exploding (VE) cases. We provide theoretical proofs of the existence and uniqueness of the model’s solution paths, as well as the non-intersecting property of the sampling paths. Additionally, we propose an adaptive Pseudo-Huber loss function to balance the convergence to the true solution and the stability of convergence process.Through a comprehensive evaluation, we demonstrate that uDDDMs achieve FID scores comparable to the best-performing methods available for CIFAR-10 in both VP and VE. Specifically, uDDDM achieves one-step generation on CIFAR10 with FID of 2.63 and 2.53 for VE and VP respectively. By extending the sampling to 1000 steps, we further reduce FID score to 1.71 and 1.65 for VE and VP respectively, setting state-of-the-art performance in both cases.
arxiv情報
著者 | Jingjing Wang,Dan Zhang,Feng Luo |
発行日 | 2024-05-31 17:49:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google