Accelerating Score-based Generative Models for High-Resolution Image Synthesis

要約

スコアベース生成モデル(SGM)は、近年、有望な生成モデルのクラスとして浮上している。これは、ガウス分布に収束するまで、ガウスノイズと勾配を繰り返し加えることにより、高品質の画像を生成するもので、拡散サンプリングと呼ばれる。しかし、サンプリングと生成品質の収束の安定性を確保するために、この逐次サンプリング処理は、小さなステップサイズと多くのサンプリング反復を取る必要がある(例えば、2000年)。低解像度生成に着目して、いくつかの高速化手法が提案されている。本研究では、より難易度が高く、かつより重要な問題であるSGMを用いた高解像度生成の高速化について検討する。我々は、この遅い収束の欠点が、主にターゲット分布の無知に起因することを理論的に証明する。さらに、空間と周波数領域における構造的な事前分布を利用した、新しいターゲット分布考慮サンプリング(TDAS)法を紹介する。CIFAR-10、CelebA、LSUN、FFHQデータセットに対する広範な実験により、TDASは合成品質をほぼ維持しながら、特に難易度の高い高解像度(1024×1024)画像生成タスクにおいて一貫して最先端のSGMを最大18.4倍高速化できることが検証された。TDASは、より少ないサンプリング反復回数で、高品質の画像を生成することができます。これに対し、既存の手法では、性能が大幅に低下したり、完全に失敗したりすることがあります。

要約(オリジナル)

Score-based generative models (SGMs) have recently emerged as a promising class of generative models. The key idea is to produce high-quality images by recurrently adding Gaussian noises and gradients to a Gaussian sample until converging to the target distribution, a.k.a. the diffusion sampling. To ensure stability of convergence in sampling and generation quality, however, this sequential sampling process has to take a small step size and many sampling iterations (e.g., 2000). Several acceleration methods have been proposed with focus on low-resolution generation. In this work, we consider the acceleration of high-resolution generation with SGMs, a more challenging yet more important problem. We prove theoretically that this slow convergence drawback is primarily due to the ignorance of the target distribution. Further, we introduce a novel Target Distribution Aware Sampling (TDAS) method by leveraging the structural priors in space and frequency domains. Extensive experiments on CIFAR-10, CelebA, LSUN, and FFHQ datasets validate that TDAS can consistently accelerate state-of-the-art SGMs, particularly on more challenging high resolution (1024×1024) image generation tasks by up to 18.4x, whilst largely maintaining the synthesis quality. With fewer sampling iterations, TDAS can still generate good quality images. In contrast, the existing methods degrade drastically or even fails completely

arxiv情報

著者 Hengyuan Ma,Li Zhang,Xiatian Zhu,Jingfeng Zhang,Jianfeng Feng
発行日 2022-06-09 17:26:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG パーマリンク