Latent Denoising Diffusion GAN: Faster sampling, Higher image quality

要約

拡散モデルは、高忠実度で多様な画像を生成するための強力なソリューションとして台頭しており、多くの状況下で GAN を上回ることもよくあります。
ただし、推論速度が遅いため、リアルタイム アプリケーションの可能性が妨げられます。
これに対処するために、DiffusionGAN は条件付き GAN を活用してノイズ除去ステップを大幅に削減し、推論を高速化しました。
その進歩であるウェーブレット拡散は、データをウェーブレット空間に変換することでプロセスをさらに加速し、効率を高めました。
それにもかかわらず、これらのモデルは、速度と画質の点で依然として GAN に及んでいません。
これらのギャップを埋めるために、この論文では潜在ノイズ除去拡散 GAN を紹介します。これは、事前トレーニングされたオートエンコーダーを採用して画像をコンパクトな潜在空間に圧縮し、推論速度と画像品質を大幅に向上させます。
さらに、多様性と画質を向上させるための重み付け学習戦略を提案します。
CIFAR-10、CelebA-HQ、および LSUN-Church データセットの実験結果は、私たちのモデルが拡散モデルの中で最先端の実行速度を達成していることを証明しています。
以前の DiffusionGAN および Wavelet Diffusion と比較して、私たちのモデルはすべての評価指標において顕著な改善を示しています。
コードと事前トレーニングされたチェックポイント: \url{https://github.com/thanhluantrinh/LDDGAN.git}

要約(オリジナル)

Diffusion models are emerging as powerful solutions for generating high-fidelity and diverse images, often surpassing GANs under many circumstances. However, their slow inference speed hinders their potential for real-time applications. To address this, DiffusionGAN leveraged a conditional GAN to drastically reduce the denoising steps and speed up inference. Its advancement, Wavelet Diffusion, further accelerated the process by converting data into wavelet space, thus enhancing efficiency. Nonetheless, these models still fall short of GANs in terms of speed and image quality. To bridge these gaps, this paper introduces the Latent Denoising Diffusion GAN, which employs pre-trained autoencoders to compress images into a compact latent space, significantly improving inference speed and image quality. Furthermore, we propose a Weighted Learning strategy to enhance diversity and image quality. Experimental results on the CIFAR-10, CelebA-HQ, and LSUN-Church datasets prove that our model achieves state-of-the-art running speed among diffusion models. Compared to its predecessors, DiffusionGAN and Wavelet Diffusion, our model shows remarkable improvements in all evaluation metrics. Code and pre-trained checkpoints: \url{https://github.com/thanhluantrinh/LDDGAN.git}

arxiv情報

著者 Luan Thanh Trinh,Tomoki Hamagami
発行日 2024-06-17 16:32:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク