UniPC: A Unified Predictor-Corrector Framework for Fast Sampling of Diffusion Models

要約

拡散確率モデル (DPM) は、高解像度画像合成において非常に有望な能力を実証しています。
ただし、事前トレーニングされた DPM からのサンプリングは、ノイズ除去ネットワークの複数の評価により時間がかかるため、DPM のサンプリングを高速化することがますます重要になっています。
高速サンプラーの設計における最近の進歩にも関わらず、既存の方法では、少ないステップ (例: $<$10) が好まれる多くのアプリケーションにおいて満足のいく画像を生成できません。 この論文では、追加のモデル評価を行わずに精度の次数を向上させるために既存の DPM サンプラーの後に適用できる統合補正器 (UniC) を開発し、副産物として任意の次数をサポートする統合予測器 (UniP) を導出します。 UniP と UniC を組み合わせて、DPM の高速サンプリングのために UniPC と呼ばれる統合予測子補正フレームワークを提案します。これは、あらゆる次数に対して統一された分析形式を持ち、特に非常に少ないステップで、以前の方法よりもサンプリング品質を大幅に向上させることができます。 私たちは、ピクセル空間と潜在空間 DPM を使用した無条件サンプリングと条件付きサンプリングの両方を含む広範な実験を通じてメソッドを評価します。 当社の UniPC は、わずか 10 回の関数評価で、CIFAR10 で 3.87 FID (無条件)、ImageNet 256$\times$256 (条件付き) で 7.51 FID を達成できます。 コードは https://github.com/wl-zhao/UniPC で入手できます。

要約(オリジナル)

Diffusion probabilistic models (DPMs) have demonstrated a very promising ability in high-resolution image synthesis. However, sampling from a pre-trained DPM is time-consuming due to the multiple evaluations of the denoising network, making it more and more important to accelerate the sampling of DPMs. Despite recent progress in designing fast samplers, existing methods still cannot generate satisfying images in many applications where fewer steps (e.g., $<$10) are favored. In this paper, we develop a unified corrector (UniC) that can be applied after any existing DPM sampler to increase the order of accuracy without extra model evaluations, and derive a unified predictor (UniP) that supports arbitrary order as a byproduct. Combining UniP and UniC, we propose a unified predictor-corrector framework called UniPC for the fast sampling of DPMs, which has a unified analytical form for any order and can significantly improve the sampling quality over previous methods, especially in extremely few steps. We evaluate our methods through extensive experiments including both unconditional and conditional sampling using pixel-space and latent-space DPMs. Our UniPC can achieve 3.87 FID on CIFAR10 (unconditional) and 7.51 FID on ImageNet 256$\times$256 (conditional) with only 10 function evaluations. Code is available at https://github.com/wl-zhao/UniPC.

arxiv情報

著者 Wenliang Zhao,Lujia Bai,Yongming Rao,Jie Zhou,Jiwen Lu
発行日 2023-09-26 11:28:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク