要約
スコアベースの生成モデル(SGM)は、最近、有望なクラスの生成モデルとして浮上しています。
ただし、基本的な制限は、多くの(たとえば、2000年)順次計算の反復が必要なため、サンプリングプロセスが遅いことです。
直感的な加速方法は、サンプリングの反復を減らすことであり、これにより、パフォーマンスの重度の劣化を引き起こすことがあります。
私たちは、この問題を、ランジュバンのダイナミクスの条件の不条理な問題とサンプリングプロセスにおける逆拡散に暴行します。
この洞察の下で、前述の問題を軽減するためにマトリックスの前処理を活用する新しい前処理拡散サンプリング(PDS)メソッドを提案します。
PDSは、バニラSGMのサンプリングプロセスを、わずかな追加の計算コストでモデル再訓練なしで変化させます。
理論的には、PDSがSGMの出力分布を保存することを証明し、元のサンプリングプロセスに体系的なバイアスを誘導するリスクはありません。
さらに理論的には、PDSのパラメーターとサンプリング反復との関係を明らかにし、さまざまなサンプリング反復の下でパラメーター推定を緩和します。
さまざまな解像度と多様性を備えたさまざまな画像データセットでの広範な実験では、PDが合成品質を維持しながら、既製のSGMSを一貫して加速することを検証します。
特に、PDは、より困難な高解像度(1024×1024)の画像生成で最大28倍まで加速できます。
最新の生成モデル(CLD-SGMや分析DDIMなど)と比較して、PDSはFIDスコア1.99でCIFAR-10で最高のサンプリング品質を達成できます。
私たちのコードは、さらなる調査https://github.com/fudan-zvg/pdsを促進するために公開されています。
要約(オリジナル)
Score-based generative models (SGMs) have recently emerged as a promising class of generative models. However, a fundamental limitation is that their sampling process is slow due to a need for many (e.g., 2000) iterations of sequential computations. An intuitive acceleration method is to reduce the sampling iterations which however causes severe performance degradation. We assault this problem to the ill-conditioned issues of the Langevin dynamics and reverse diffusion in the sampling process. Under this insight, we propose a novel preconditioned diffusion sampling (PDS) method that leverages matrix preconditioning to alleviate the aforementioned problem. PDS alters the sampling process of a vanilla SGM at marginal extra computation cost and without model retraining. Theoretically, we prove that PDS preserves the output distribution of the SGM, with no risk of inducing systematical bias to the original sampling process. We further theoretically reveal a relation between the parameter of PDS and the sampling iterations, easing the parameter estimation under varying sampling iterations. Extensive experiments on various image datasets with a variety of resolutions and diversity validate that our PDS consistently accelerates off-the-shelf SGMs whilst maintaining the synthesis quality. In particular, PDS can accelerate by up to 28x on more challenging high-resolution (1024×1024) image generation. Compared with the latest generative models (e.g., CLD-SGM and Analytic-DDIM), PDS can achieve the best sampling quality on CIFAR-10 at an FID score of 1.99. Our code is publicly available to foster any further research https://github.com/fudan-zvg/PDS.
arxiv情報
著者 | Hengyuan Ma,Xiatian Zhu,Jianfeng Feng,Li Zhang |
発行日 | 2025-02-27 15:14:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google