要約
この論文では、画像の忠実度を高めるために特別に設計された新しいシングルステップ拡散ベースの画像スーパー解像度(SR)モデルであるGuidesRを提案します。
既存の拡散ベースのSRアプローチは、通常、以前の訓練を受けた生成モデルを、劣化した入力のVAEダウンサンプリングされた表現に追加の条件付けを追加することにより、画像修復タスクに適応します。
Guidesrは、次のことを含む二重ブランチアーキテクチャを導入することにより、この制限に対処します。(1)元の解像度の劣化した入力から高忠実度構造を保持するガイダンスブランチ、および(2)前訓練を受けた潜在的な拡散モデルが知覚的品質を向上させる拡散分岐。
従来のコンディショニングメカニズムとは異なり、ガイダンスブランチは、画像修復タスクのためにカスタマイズされた構造を備えており、フル解像度ブロック(FRB)とチャネルの注意とイメージガイダンスネットワーク(IGN)とガイド付き注意を組み合わせています。
詳細な構造情報を復元パイプラインに直接埋め込むことにより、Guidesrはよりシャープで視覚的に一貫した結果を生み出します。
ベンチマークデータセットでの広範な実験は、GuidesRが最新のパフォーマンスを達成し、単一ステップアプローチの低い計算コストを維持しながら、最大1.39dbのPSNRが挑戦する現実世界のデータセットで獲得することを示しています。
私たちのアプローチは、PSNR、SSIM、LPIPS、DIST、FIDなど、さまざまな参照ベースのメトリックにわたって既存のメソッドを一貫して上回り、実際の画像修復の実用的な進歩をさらに表しています。
要約(オリジナル)
In this paper, we propose GuideSR, a novel single-step diffusion-based image super-resolution (SR) model specifically designed to enhance image fidelity. Existing diffusion-based SR approaches typically adapt pre-trained generative models to image restoration tasks by adding extra conditioning on a VAE-downsampled representation of the degraded input, which often compromises structural fidelity. GuideSR addresses this limitation by introducing a dual-branch architecture comprising: (1) a Guidance Branch that preserves high-fidelity structures from the original-resolution degraded input, and (2) a Diffusion Branch, which a pre-trained latent diffusion model to enhance perceptual quality. Unlike conventional conditioning mechanisms, our Guidance Branch features a tailored structure for image restoration tasks, combining Full Resolution Blocks (FRBs) with channel attention and an Image Guidance Network (IGN) with guided attention. By embedding detailed structural information directly into the restoration pipeline, GuideSR produces sharper and more visually consistent results. Extensive experiments on benchmark datasets demonstrate that GuideSR achieves state-of-the-art performance while maintaining the low computational cost of single-step approaches, with up to 1.39dB PSNR gain on challenging real-world datasets. Our approach consistently outperforms existing methods across various reference-based metrics including PSNR, SSIM, LPIPS, DISTS and FID, further representing a practical advancement for real-world image restoration.
arxiv情報
著者 | Aditya Arora,Zhengzhong Tu,Yufei Wang,Ruizheng Bai,Jian Wang,Sizhuo Ma |
発行日 | 2025-05-01 17:48:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google