ConsisSR: Delving Deep into Consistency in Diffusion-based Image Super-Resolution

要約

実世界画像超解像度 (Real-ISR) は、未知の複雑な劣化によって破損した低品質 (LQ) 入力から高品質 (HQ) 画像を復元することを目的としています。
特に、事前トレーニングされたテキストから画像への (T2I) 拡散モデルは、信頼性の高い複雑な詳細を再構築するための強力な生成事前分布を提供します。
ただし、T2I 生成は意味の一貫性に焦点を当てているのに対し、Real-ISR はピクセルレベルの再構成を重視しているため、既存の方法では拡散事前分布を完全に活用することができません。
この課題に対処するために、セマンティックとピクセルレベルの両方の一貫性を処理する ConsisSR を導入します。
具体的には、粗粒度のテキスト プロンプトと比較して、より強力な CLIP 画像埋め込みを活用し、セマンティック ガイダンスのためにハイブリッド プロンプト アダプター (HPA) を通じて両方のモダリティを効果的に活用します。
次に、T2I 生成と Real-ISR の一貫性要件の間の固有のギャップを軽減するために、Time-aware Latent Augmentation (TALA) を導入します。
LQ と HQ の潜在入力をランダムに混合することにより、私たちのモデルはタイムステップ固有の拡散ノイズを処理するだけでなく、蓄積された潜在表現も洗練します。
最後に重要なことですが、私たちの GAN 埋め込み戦略では、事前トレーニングされた Real-ESRGAN モデルを使用して拡散開始点を調整します。
これにより、トレーニング不要の方法で、サンプリング品質を維持しながら、推論プロセスが 10 ステップに加速されます。私たちのメソッドは、フルスケール モデルと加速モデルの両方で最先端のパフォーマンスを実証します。
コードは公開されます。

要約(オリジナル)

Real-world image super-resolution (Real-ISR) aims at restoring high-quality (HQ) images from low-quality (LQ) inputs corrupted by unknown and complex degradations. In particular, pretrained text-to-image (T2I) diffusion models provide strong generative priors to reconstruct credible and intricate details. However, T2I generation focuses on semantic consistency while Real-ISR emphasizes pixel-level reconstruction, which hinders existing methods from fully exploiting diffusion priors. To address this challenge, we introduce ConsisSR to handle both semantic and pixel-level consistency. Specifically, compared to coarse-grained text prompts, we exploit the more powerful CLIP image embedding and effectively leverage both modalities through our Hybrid Prompt Adapter (HPA) for semantic guidance. Secondly, we introduce Time-aware Latent Augmentation (TALA) to mitigate the inherent gap between T2I generation and Real-ISR consistency requirements. By randomly mixing LQ and HQ latent inputs, our model not only handle timestep-specific diffusion noise but also refine the accumulated latent representations. Last but not least, our GAN-Embedding strategy employs the pretrained Real-ESRGAN model to refine the diffusion start point. This accelerates the inference process to 10 steps while preserving sampling quality, in a training-free manner.Our method demonstrates state-of-the-art performance among both full-scale and accelerated models. The code will be made publicly available.

arxiv情報

著者 Junhao Gu,Peng-Tao Jiang,Hao Zhang,Mi Zhou,Jinwei Chen,Wenming Yang,Bo Li
発行日 2024-10-17 17:41:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク