ResDiff: Combining CNN and Diffusion Model for Image Super-Resolution

要約

拡散確率モデル(Diffusion Probabilistic Model: DPM)を直接画像超解像に適用することは、単純な畳み込みニューラルネットワーク(Convolutional Neural Network: CNN)で主要な低周波コンテンツを復元できることを考えると、無駄が多い。そこで我々は、単一画像超解像(SISR)のための、残差構造に基づく新しい拡散確率モデルであるResDiffを提案する。ResDiffは、一次低周波成分を復元するCNNと、地上真実画像とCNN予測画像との残差を予測するDPMの組み合わせを利用する。LR画像を直接用いてノイズをHR空間へ誘導する一般的な拡散ベースの手法とは対照的に、ResDiffはCNNの初期予測を利用し、ノイズをHR空間とCNN予測空間の間の残差空間へ誘導することで、生成プロセスを高速化するだけでなく、優れたサンプル品質を獲得する。さらに、CNNの復元を容易にするために、周波数領域ベースの損失関数が導入され、高周波の詳細を予測するために、周波数領域ガイド拡散がDPMのために設計される。複数のベンチマークデータセットを用いた広範な実験により、ResDiffが、モデルの収束時間の短縮、優れた生成品質、より多様なサンプルという点で、これまでの拡散ベースの手法を凌駕することが実証された。

要約(オリジナル)

Adapting the Diffusion Probabilistic Model (DPM) for direct image super-resolution is wasteful, given that a simple Convolutional Neural Network (CNN) can recover the main low-frequency content. Therefore, we present ResDiff, a novel Diffusion Probabilistic Model based on Residual structure for Single Image Super-Resolution (SISR). ResDiff utilizes a combination of a CNN, which restores primary low-frequency components, and a DPM, which predicts the residual between the ground-truth image and the CNN predicted image. In contrast to the common diffusion-based methods that directly use LR images to guide the noise towards HR space, ResDiff utilizes the CNN’s initial prediction to direct the noise towards the residual space between HR space and CNN-predicted space, which not only accelerates the generation process but also acquires superior sample quality. Additionally, a frequency-domain-based loss function for CNN is introduced to facilitate its restoration, and a frequency-domain guided diffusion is designed for DPM on behalf of predicting high-frequency details. The extensive experiments on multiple benchmark datasets demonstrate that ResDiff outperforms previous diffusion based methods in terms of shorter model convergence time, superior generation quality, and more diverse samples.

arxiv情報

著者 Shuyao Shang,Zhengyang Shan,Guangxing Liu,LunQian Wang,XingHua Wang,Zekai Zhang,Jinglin Zhang
発行日 2024-02-02 10:36:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク