You Only Need One Step: Fast Super-Resolution with Stable Diffusion via Scale Distillation

要約

この論文では、単一の DDIM ステップのみを使用して最先端の結果を生み出す、画像超解像度のための新しい安定した拡散ベースのアプローチである YONOS-SR を紹介します。
SR モデルをトレーニングするための新しいスケール蒸留アプローチを提案します。
対象のスケール係数で SR モデルを直接トレーニングする代わりに、より小さい倍率スケールで教師モデルをトレーニングすることから始めます。これにより、教師にとって SR 問題がより単純になります。
次に、トレーニング中のターゲットとして教師の予測を使用して、より高い倍率スケールに合わせて学生モデルをトレーニングします。
このプロセスは、最終モデルの目標スケール係数に到達するまで繰り返し繰り返されます。
私たちのスケール蒸留の背後にある理論的根拠は、教師が、i) すべてのノイズ レベルのグラウンド トゥルース データから得られた同じターゲットを使用するのではなく、現在のノイズ レベルに適合したターゲットを提供すること、および ii) 正確なターゲットを提供することによって、生徒の拡散モデルのトレーニングを支援することです。
教師には解決すべき簡単な課題があるからです。
我々は、抽出されたモデルが、特に推論中に少ないステップで高スケール向けに直接トレーニングされたモデルよりも大幅に優れていることを経験的に示しています。
たった 1 ステップで済む強力な拡散モデルがあるため、U-Net をフリーズし、その上でデコーダを微調整することができます。
空間的に蒸留された U-Net と微調整されたデコーダーの組み合わせが、わずか 1 ステップで 200 ステップを必要とする最先端の手法を上回るパフォーマンスを示すことを示します。

要約(オリジナル)

In this paper, we introduce YONOS-SR, a novel stable diffusion-based approach for image super-resolution that yields state-of-the-art results using only a single DDIM step. We propose a novel scale distillation approach to train our SR model. Instead of directly training our SR model on the scale factor of interest, we start by training a teacher model on a smaller magnification scale, thereby making the SR problem simpler for the teacher. We then train a student model for a higher magnification scale, using the predictions of the teacher as a target during the training. This process is repeated iteratively until we reach the target scale factor of the final model. The rationale behind our scale distillation is that the teacher aids the student diffusion model training by i) providing a target adapted to the current noise level rather than using the same target coming from ground truth data for all noise levels and ii) providing an accurate target as the teacher has a simpler task to solve. We empirically show that the distilled model significantly outperforms the model trained for high scales directly, specifically with few steps during inference. Having a strong diffusion model that requires only one step allows us to freeze the U-Net and fine-tune the decoder on top of it. We show that the combination of spatially distilled U-Net and fine-tuned decoder outperforms state-of-the-art methods requiring 200 steps with only one single step.

arxiv情報

著者 Mehdi Noroozi,Isma Hadji,Brais Martinez,Adrian Bulat,Georgios Tzimiropoulos
発行日 2024-01-30 18:49:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク