Pseudo Numerical Methods for Diffusion Models on Manifolds

要約

ノイズ除去拡散確率モデル (DDPM) は、画像や音声サンプルなどの高品質のサンプルを生成できます。
ただし、DDPM では、最終サンプルを生成するために数百から数千回の反復が必要です。
以前のいくつかの研究では、分散スケジュール (改善されたノイズ除去拡散確率モデルなど) またはノイズ除去方程式 (ノイズ除去拡散陰解モデル (DDIM) など) を調整することで、DDPM の加速に成功しています。
ただし、これらの高速化方法はサンプルの品質を維持できず、高速化率で新しいノイズを導入することさえあり、実用性が制限されます。
サンプルの品質を維持しながら推論プロセスを加速するために、DDPM は多様体の微分方程式を解くものとして扱われるべきであるという新しい視点を提供します。
このような観点から、拡散モデル(PNDM)の疑似数値法を提案します。
具体的には、多様体の微分方程式を解く方法を理解し、DDIM が疑似数値法の単純なケースであることを示します。
いくつかの古典的な数値法を対応する疑似数値法に変更し、疑似線形マルチステップ法がほとんどの状況で最適であることを発見しました。
私たちの実験によると、Cifar10、CelebA、および LSUN で事前トレーニング済みのモデルを直接使用することにより、PNDM は 1000 ステップの DDIM と比較してわずか 50 ステップで高品質の合成画像を生成でき (20 倍の速度アップ)、250 ステップの DDIM を大幅に上回ります (約
FID で 0.4)、さまざまな分散スケジュールで適切に一般化できます。
私たちの実装は https://github.com/luping-liu/PNDM で入手できます。

要約(オリジナル)

Denoising Diffusion Probabilistic Models (DDPMs) can generate high-quality samples such as image and audio samples. However, DDPMs require hundreds to thousands of iterations to produce final samples. Several prior works have successfully accelerated DDPMs through adjusting the variance schedule (e.g., Improved Denoising Diffusion Probabilistic Models) or the denoising equation (e.g., Denoising Diffusion Implicit Models (DDIMs)). However, these acceleration methods cannot maintain the quality of samples and even introduce new noise at a high speedup rate, which limit their practicability. To accelerate the inference process while keeping the sample quality, we provide a fresh perspective that DDPMs should be treated as solving differential equations on manifolds. Under such a perspective, we propose pseudo numerical methods for diffusion models (PNDMs). Specifically, we figure out how to solve differential equations on manifolds and show that DDIMs are simple cases of pseudo numerical methods. We change several classical numerical methods to corresponding pseudo numerical methods and find that the pseudo linear multi-step method is the best in most situations. According to our experiments, by directly using pre-trained models on Cifar10, CelebA and LSUN, PNDMs can generate higher quality synthetic images with only 50 steps compared with 1000-step DDIMs (20x speedup), significantly outperform DDIMs with 250 steps (by around 0.4 in FID) and have good generalization on different variance schedules. Our implementation is available at https://github.com/luping-liu/PNDM.

arxiv情報

著者 Luping Liu,Yi Ren,Zhijie Lin,Zhou Zhao
発行日 2022-10-31 09:05:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.NA, math.NA, stat.ML パーマリンク