A Wavelet Diffusion GAN for Image Super-Resolution

要約

近年、拡散モデルは、高忠実度の画像生成のための敵対的生成ネットワーク (GAN) に代わる優れた代替手段として台頭しており、テキストから画像への生成、画像から画像への変換、超解像度などに幅広く応用されています。
ただし、リアルタイムの実現可能性は、トレーニングと推論の速度が遅いために妨げられます。
この研究では、単一画像超解像度 (SISR) 用のウェーブレットベースの条件付き拡散 GAN スキームを提案することで、この課題に対処します。
私たちのアプローチでは、拡散 GAN パラダイムを利用して逆拡散プロセスに必要なタイムステップを削減し、離散ウェーブレット変換 (DWT) を利用して次元削減を達成し、トレーニングと推論の時間を大幅に短縮します。
CelebA-HQ データセットの実験的検証の結果は、提案したスキームの有効性を確認します。
私たちのアプローチは、他の最先端の方法論よりも優れており、時間に敏感なアプリケーションにおける拡散モデルに伴う固有の欠点を克服しながら、忠実度の高い出力を確保することに成功しています。

要約(オリジナル)

In recent years, diffusion models have emerged as a superior alternative to generative adversarial networks (GANs) for high-fidelity image generation, with wide applications in text-to-image generation, image-to-image translation, and super-resolution. However, their real-time feasibility is hindered by slow training and inference speeds. This study addresses this challenge by proposing a wavelet-based conditional Diffusion GAN scheme for Single-Image Super-Resolution (SISR). Our approach utilizes the diffusion GAN paradigm to reduce the timesteps required by the reverse diffusion process and the Discrete Wavelet Transform (DWT) to achieve dimensionality reduction, decreasing training and inference times significantly. The results of an experimental validation on the CelebA-HQ dataset confirm the effectiveness of our proposed scheme. Our approach outperforms other state-of-the-art methodologies successfully ensuring high-fidelity output while overcoming inherent drawbacks associated with diffusion models in time-sensitive applications.

arxiv情報

著者 Lorenzo Aloisi,Luigi Sigillo,Aurelio Uncini,Danilo Comminiello
発行日 2024-10-23 15:34:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク