Preconditioned Score-based Generative Models

要約

スコアベースの生成モデル (SGM) は、生成モデルの有望なクラスとして最近登場しました。
ただし、基本的な制限は、逐次計算の多くの反復 (\ 例: $2000$) が必要なため、サンプリング プロセスが遅いことです。
直感的な高速化方法は、サンプリングの反復を減らすことですが、これは深刻なパフォーマンスの低下を引き起こします。
この問題を、ランジュバン ダイナミクスとサンプリング プロセスにおける逆拡散の条件の悪い問題に攻撃します。
この洞察に基づいて、前述の問題を軽減するためにマトリックスの前処理を活用する、モデルに依存しない {\bf\em 前処理付き拡散サンプリング} (PDS) メソッドを提案します。
PDS は、最小限の追加計算コストで、モデルの再トレーニングなしで、バニラ SGM のサンプリング プロセスを変更します。
理論的には、PDS が SGM の出力分布を保持し、元のサンプリング プロセスに系統的なバイアスを誘発するリスクがないことを証明します。
さらに、PDS のパラメーターとサンプリング反復の間の関係を理論的に明らかにし、さまざまなサンプリング反復の下でのパラメーター推定を容易にします。
さまざまな解像度と多様性を備えたさまざまな画像データセットでの広範な実験により、PDS が合成品質を維持しながら既製の SGM を一貫して高速化することが検証されました。
特に、PDS は、より困難な高解像度 (1024$\times$1024) の画像生成を最大 $29\times$ 高速化できます。
最新の生成モデル (CLD-SGM、DDIM、Analytic-DDIM など) と比較すると、PDS は CIFAR-10 で FID スコア 1.99 で最高のサンプリング品質を達成できます。
私たちのコードは、さらなる研究を促進するために公開されています https://github.com/fudan-zvg/PDS.

要約(オリジナル)

Score-based generative models (SGMs) have recently emerged as a promising class of generative models. However, a fundamental limitation is that their sampling process is slow due to a need for many (\eg, $2000$) iterations of sequential computations. An intuitive acceleration method is to reduce the sampling iterations which however causes severe performance degradation. We assault this problem to the ill-conditioned issues of the Langevin dynamics and reverse diffusion in the sampling process. Under this insight, we propose a model-agnostic {\bf\em preconditioned diffusion sampling} (PDS) method that leverages matrix preconditioning to alleviate the aforementioned problem. PDS alters the sampling process of a vanilla SGM at marginal extra computation cost, and without model retraining. Theoretically, we prove that PDS preserves the output distribution of the SGM, no risk of inducing systematical bias to the original sampling process. We further theoretically reveal a relation between the parameter of PDS and the sampling iterations,easing the parameter estimation under varying sampling iterations. Extensive experiments on various image datasets with a variety of resolutions and diversity validate that our PDS consistently accelerates off-the-shelf SGMs whilst maintaining the synthesis quality. In particular, PDS can accelerate by up to $29\times$ on more challenging high resolution (1024$\times$1024) image generation. Compared with the latest generative models (\eg, CLD-SGM, DDIM, and Analytic-DDIM), PDS can achieve the best sampling quality on CIFAR-10 at a FID score of 1.99. Our code is made publicly available to foster any further research https://github.com/fudan-zvg/PDS.

arxiv情報

著者 Li Zhang,Hengyuan Ma,Xiatian Zhu,Jianfeng Feng
発行日 2023-02-13 16:30:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク