Does Diffusion Beat GAN in Image Super Resolution?

要約

最近の文献では、画像超解像度 (ISR) 問題に関しては拡散ベースのモデルが GAN ベースのモデルよりも優れているという意見が広まっています。
ただし、ほとんどの研究では、拡散ベースの ISR モデルは GAN ベースラインよりも長時間トレーニングされ、大規模なネットワークを利用しました。
このことから、拡散モデルの優位性は拡散パラダイムが ISR タスクにより適しているためなのか、それとも現代の研究で使用される規模と計算リソースの増加の結果なのかという疑問が生じます。
私たちの研究では、制御された設定の下で拡散ベースと GAN ベースの超解像度を比較します。両方のアプローチは、アーキテクチャ、モデルとデータセットのサイズ、計算予算の点で一致しています。
GAN ベースのモデルが拡散ベースのモデルと同等の結果を達成できることを示します。
さらに、テキストの調整や拡張などの設計上の選択が ISR モデルのパフォーマンスに与える影響を調査し、いくつかの下流タスクへの影響を示します。
スケーリングされた GAN の推論コードと重みを公開します。

要約(オリジナル)

There is a prevalent opinion in the recent literature that Diffusion-based models outperform GAN-based counterparts on the Image Super Resolution (ISR) problem. However, in most studies, Diffusion-based ISR models were trained longer and utilized larger networks than the GAN baselines. This raises the question of whether the superiority of Diffusion models is due to the Diffusion paradigm being better suited for the ISR task or if it is a consequence of the increased scale and computational resources used in contemporary studies. In our work, we compare Diffusion-based and GAN-based Super Resolution under controlled settings, where both approaches are matched in terms of architecture, model and dataset size, and computational budget. We show that a GAN-based model can achieve results comparable to a Diffusion-based model. Additionally, we explore the impact of design choices such as text conditioning and augmentation on the performance of ISR models, showcasing their effect on several downstream tasks. We will release the inference code and weights of our scaled GAN.

arxiv情報

著者 Denis Kuznedelev,Valerii Startsev,Daniil Shlenskii,Sergey Kastryulin
発行日 2024-05-27 15:19:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク