要約
画像再スケーリングは、元の高解像度 (HR) 対応物に正確に再構成できる最適な低解像度 (LR) 画像を学習することを目的としており、超高解像度メディアに効率的な画像処理および保存方法を提供します。
ただし、極端なダウンスケーリング要素は、その非常に不適切な性質によりアップスケーリング プロセスに重大な課題をもたらし、既存の画像再スケーリング手法では意味的に正しい構造と知覚に優しいテクスチャを生成するのに苦労します。
この研究では、極端な画像再スケーリングのための One-Step Image Rescaling Diffusion (OSIRDiff) と呼ばれる新しいフレームワークを提案します。これは、事前トレーニングされたオートエンコーダーの潜在空間で再スケーリング操作を実行し、事前に学習された強力な自然画像事前分布を効果的に活用します。
トレーニングされたテキストから画像への拡散モデル。
具体的には、OSIRdiff は擬似反転モジュールを採用して、HR 画像の潜在的な特徴とターゲット サイズの LR 画像の間の双方向マッピングを確立します。
次に、再スケーリングされたフィーチャは、事前トレーニングされた拡散モデルによって洗練され、より忠実で視覚的に好ましい詳細が生成されます。
モデル全体がエンドツーエンドでトレーニングされ、拡散事前分布が再スケーリング プロセスをガイドできるようになります。
再スケーリングされた潜在フィーチャの空間的に不均一な再構成品質を考慮して、潜在再構成エラーの程度に基づいて拡散モデルの生成強度を適応的に決定できる新しいタイムステップ調整戦略を提案します。
広範な実験により、定量的評価と定性的評価の両方において、OSIRdiff が以前の方法よりも優れていることが実証されました。
要約(オリジナル)
Image rescaling aims to learn the optimal low-resolution (LR) image that can be accurately reconstructed to its original high-resolution (HR) counterpart, providing an efficient image processing and storage method for ultra-high definition media. However, extreme downscaling factors pose significant challenges to the upscaling process due to its highly ill-posed nature, causing existing image rescaling methods to struggle in generating semantically correct structures and perceptual friendly textures. In this work, we propose a novel framework called One-Step Image Rescaling Diffusion (OSIRDiff) for extreme image rescaling, which performs rescaling operations in the latent space of a pre-trained autoencoder and effectively leverages powerful natural image priors learned by a pre-trained text-to-image diffusion model. Specifically, OSIRDiff adopts a pseudo-invertible module to establish the bidirectional mapping between the latent features of the HR image and the target-sized LR image. Then, the rescaled features are refined by a pre-trained diffusion model to generate more faithful and visually pleasing details. The entire model is end-to-end trained to enable the diffusion priors to guide the rescaling process. Considering the spatially non-uniform reconstruction quality of the rescaled latent features, we propose a novel time-step alignment strategy, which can adaptively determine the generative strength of the diffusion model based on the degree of latent reconstruction errors. Extensive experiments demonstrate the superiority of OSIRDiff over previous methods in both quantitative and qualitative evaluations.
arxiv情報
著者 | Ce Wang,Zhenyu Hu,Wanjie Sun,Zhenzhong Chen |
発行日 | 2024-11-19 14:41:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google