要約
単純な畳み込みニューラル ネットワーク (CNN) で主な低周波コンテンツを復元できることを考えると、直接画像の超解像に拡散確率モデル (DPM) を適用するのは無駄です。
したがって、単一画像超解像度 (SISR) の残差構造に基づく新しい拡散確率モデルである ResDiff を提示します。
ResDiff は、一次低周波成分を復元する CNN と、グラウンド トゥルース イメージと CNN 予測イメージの間の残差を予測する DPM の組み合わせを利用します。
LR 画像を直接使用してノイズを HR 空間に導く一般的な拡散ベースの方法とは対照的に、ResDiff は CNN の初期予測を利用して、ノイズを HR 空間と CNN 予測空間の間の残りの空間に向けます。
生成プロセスだけでなく、優れたサンプル品質も取得します。
さらに、CNN の周波数領域ベースの損失関数が導入されてその復元が容易になり、周波数領域のガイド付き拡散が高周波の詳細を予測する代わりに DPM 用に設計されています。
複数のベンチマーク データセットでの広範な実験は、ResDiff が以前の拡散ベースの方法よりも短いモデル収束時間、優れた生成品質、およびより多様なサンプルの点で優れていることを示しています。
要約(オリジナル)
Adapting the Diffusion Probabilistic Model (DPM) for direct image super-resolution is wasteful, given that a simple Convolutional Neural Network (CNN) can recover the main low-frequency content. Therefore, we present ResDiff, a novel Diffusion Probabilistic Model based on Residual structure for Single Image Super-Resolution (SISR). ResDiff utilizes a combination of a CNN, which restores primary low-frequency components, and a DPM, which predicts the residual between the ground-truth image and the CNN-predicted image. In contrast to the common diffusion-based methods that directly use LR images to guide the noise towards HR space, ResDiff utilizes the CNN’s initial prediction to direct the noise towards the residual space between HR space and CNN-predicted space, which not only accelerates the generation process but also acquires superior sample quality. Additionally, a frequency-domain-based loss function for CNN is introduced to facilitate its restoration, and a frequency-domain guided diffusion is designed for DPM on behalf of predicting high-frequency details. The extensive experiments on multiple benchmark datasets demonstrate that ResDiff outperforms previous diffusion-based methods in terms of shorter model convergence time, superior generation quality, and more diverse samples.
arxiv情報
著者 | Shuyao Shang,Zhengyang Shan,Guangxing Liu,Jinglin Zhang |
発行日 | 2023-03-15 15:50:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google