Refusion: Enabling Large-Size Realistic Image Restoration with Latent-Space Diffusion Models

要約

タイトル:Latent-Space Diffusion Modelsを用いた大規模実現画像修復におけるRefusionの有用性

要約:
-この研究は、Diffusion Modelsを実世界の画像修復に適用するために改良を加えたものである。ネットワークアーキテクチャ、ノイズレベル、Denoisingステップ、トレーニング画像サイズ、そして最適化/スケジューラなどのいくつかの側面でDiffusion Modelを強化している。これらのハイパーパラメータを調整することにより、歪みや知覚スコアの両方において、より優れたパフォーマンスを発揮できることを示している。
-また、我々は、U-Netベースの潜在的拡散モデルを提案しており、このモデルは、低解像度の潜在的空間で拡散を実行し、同時にデコードプロセスで元の入力から高解像度の情報を保持する。これにより、画像を圧縮するためのVAE-GANをトレーニングする以前の潜在的拡散モデルと比較して、提案されたU-Net圧縮戦略は、非常に安定しており、敵対的な最適化に頼らずに高度に正確な画像を復元することができます。
-これらの改善により、実際の世界のシャドウ除去、HRノンホモジニアスディーヘイジング、ステレオスーパーレゾリューション、およびボケ効果変換などのさまざまな画像修復タスクにDiffusion Modelsを適用できるようになりました。
-我々のモデルであるRefusionは、単にデータセットを置き換え、わずかにノイズネットワークを変更するだけで、大規模な画像(例:HRディヘイジングにおける6000 x 4000 x 3)に対応し、すべての修復問題に対して良好な結果を生み出します。
-我々のRefusionは、NTIRE 2023 Image Shadow Removal Challengeで最高の知覚パフォーマンスを発揮し、総合2位を獲得しました。

要約(オリジナル)

This work aims to improve the applicability of diffusion models in realistic image restoration. Specifically, we enhance the diffusion model in several aspects such as network architecture, noise level, denoising steps, training image size, and optimizer/scheduler. We show that tuning these hyperparameters allows us to achieve better performance on both distortion and perceptual scores. We also propose a U-Net based latent diffusion model which performs diffusion in a low-resolution latent space while preserving high-resolution information from the original input for the decoding process. Compared to the previous latent-diffusion model which trains a VAE-GAN to compress the image, our proposed U-Net compression strategy is significantly more stable and can recover highly accurate images without relying on adversarial optimization. Importantly, these modifications allow us to apply diffusion models to various image restoration tasks, including real-world shadow removal, HR non-homogeneous dehazing, stereo super-resolution, and bokeh effect transformation. By simply replacing the datasets and slightly changing the noise network, our model, named Refusion, is able to deal with large-size images (e.g., 6000 x 4000 x 3 in HR dehazing) and produces good results on all the above restoration problems. Our Refusion achieves the best perceptual performance in the NTIRE 2023 Image Shadow Removal Challenge and wins 2nd place overall.

arxiv情報

著者 Ziwei Luo,Fredrik K. Gustafsson,Zheng Zhao,Jens Sjölund,Thomas B. Schön
発行日 2023-04-17 14:06:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク