要約
事前トレーニングされたテキストから画像への拡散モデルは、その強力な生成画像事前分布により、現実世界の画像超解像度 (Real-ISR) 問題に取り組むためにますます採用されています。
既存の方法のほとんどは、ランダム ノイズから開始して、与えられた低品質 (LQ) 画像に基づいて高品質 (HQ) 画像を再構築します。
有望な結果が得られていますが、このような Real-ISR 法では HQ 画像を再現するために複数の拡散ステップが必要となり、計算コストが増加します。
一方、ランダム ノイズは出力に不確実性をもたらし、画像復元タスクには不向きです。
これらの問題に対処するために、Real-ISR 問題に対する 1 ステップの効果的な拡散ネットワーク、つまり OSEDiff を提案します。
私たちは、LQ 画像には対応する HQ 画像を復元するための豊富な情報が含まれているため、特定の LQ 画像を拡散の開始点として直接使用でき、ランダム ノイズ サンプリングによってもたらされる不確実性を排除できると主張します。
トレーニング可能な層を使用して事前トレーニング済みの拡散ネットワークを微調整し、複雑な画像劣化に適応させます。
ワンステップ拡散モデルが HQ Real-ISR 出力を確実に生成できるようにするために、潜在空間で変分スコア蒸留を適用して KL ダイバージェンス正則化を実行します。
その結果、OSEDiff モデルは、たった 1 回の拡散ステップで効率的かつ効果的に HQ 画像を生成できます。
私たちの実験では、OSEDiff が、数十または数百のステップを必要とする以前の拡散モデルベースの Real-ISR 手法と比較して、客観的な指標と主観的な評価の両方の点で、同等またはそれ以上の Real-ISR 結果を達成できることを示しています。
ソースコードは https://github.com/cswry/OSEDiff で公開されています。
要約(オリジナル)
The pre-trained text-to-image diffusion models have been increasingly employed to tackle the real-world image super-resolution (Real-ISR) problem due to their powerful generative image priors. Most of the existing methods start from random noise to reconstruct the high-quality (HQ) image under the guidance of the given low-quality (LQ) image. While promising results have been achieved, such Real-ISR methods require multiple diffusion steps to reproduce the HQ image, increasing the computational cost. Meanwhile, the random noise introduces uncertainty in the output, which is unfriendly to image restoration tasks. To address these issues, we propose a one-step effective diffusion network, namely OSEDiff, for the Real-ISR problem. We argue that the LQ image contains rich information to restore its HQ counterpart, and hence the given LQ image can be directly taken as the starting point for diffusion, eliminating the uncertainty introduced by random noise sampling. We finetune the pre-trained diffusion network with trainable layers to adapt it to complex image degradations. To ensure that the one-step diffusion model could yield HQ Real-ISR output, we apply variational score distillation in the latent space to conduct KL-divergence regularization. As a result, our OSEDiff model can efficiently and effectively generate HQ images in just one diffusion step. Our experiments demonstrate that OSEDiff achieves comparable or even better Real-ISR results, in terms of both objective metrics and subjective evaluations, than previous diffusion model-based Real-ISR methods that require dozens or hundreds of steps. The source codes are released at https://github.com/cswry/OSEDiff.
arxiv情報
著者 | Rongyuan Wu,Lingchen Sun,Zhiyuan Ma,Lei Zhang |
発行日 | 2024-10-24 12:32:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google