Denoising Diffusion Probabilistic Models for Robust Image Super-Resolution in the Wild

要約

拡散モデルは、単一画像の超解像やその他の画像から画像への変換タスクで有望な結果を示しています。
この成功にもかかわらず、彼らは、入力画像が未知の劣化で分布から外れている、より困難なブラインド超解像タスクで最先端の GAN モデルを上回っていません。
この論文では、ブラインド超解像のための拡散ベースのモデルである SR3+ を紹介し、新しい最先端技術を確立します。
この目的のために、私たちは、自己教師ありトレーニング用の複合パラメーター化された劣化と、トレーニングおよびテスト中のノイズ調整拡張を組み合わせた自己教師ありトレーニングを提唱します。
これらのイノベーション、大規模な畳み込みアーキテクチャ、および大規模なデータセットにより、SR3+ は SR3 よりもはるかに優れています。
同じデータでトレーニングした場合、DRealSR FID スコアは 36.82 対 37.22 で Real-ESRGAN よりも優れており、より大きなモデルでは 32.37 の FID にさらに改善され、さらに大きなトレーニング セットではさらに改善されます。

要約(オリジナル)

Diffusion models have shown promising results on single-image super-resolution and other image- to-image translation tasks. Despite this success, they have not outperformed state-of-the-art GAN models on the more challenging blind super-resolution task, where the input images are out of distribution, with unknown degradations. This paper introduces SR3+, a diffusion-based model for blind super-resolution, establishing a new state-of-the-art. To this end, we advocate self-supervised training with a combination of composite, parameterized degradations for self-supervised training, and noise-conditioing augmentation during training and testing. With these innovations, a large-scale convolutional architecture, and large-scale datasets, SR3+ greatly outperforms SR3. It outperforms Real-ESRGAN when trained on the same data, with a DRealSR FID score of 36.82 vs. 37.22, which further improves to FID of 32.37 with larger models, and further still with larger training sets.

arxiv情報

著者 Hshmat Sahak,Daniel Watson,Chitwan Saharia,David Fleet
発行日 2023-02-15 18:56:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク