Image Super-resolution Via Latent Diffusion: A Sampling-space Mixture Of Experts And Frequency-augmented Decoder Approach

要約

事前にトレーニングされたテキスト画像モデルによって強化された最近の拡散事前使用により、画像の超解像度 (SR) のパフォーマンスが著しく向上しました。
ピクセルベースの拡散 SR に必要な膨大な計算コストを軽減するために、潜在ベースの方法では、特徴エンコーダーを利用して画像を変換し、コンパクトな潜在空間で SR 画像生成を実装します。
それにもかかわらず、潜在ベースの拡散のパフォーマンスを制限する 2 つの大きな問題があります。
まず、潜在空間の圧縮により、通常、再構成の歪みが生じます。
第 2 に、膨大な計算コストが拡散モデルのパラメータスケールを制限します。
これらの問題に対処するために、我々はまず、潜在空間からピクセル空間までの周波数成分を強化する周波数補償モジュールを提案します。
再構成歪み (特に高周波情報) を大幅に減少させることができます。
次に、Sample-Space Mixture of Experts (SS-MoE) を使用して、より強力な潜在ベースの SR を実現することを提案します。これにより、推論コストを大幅に増加させることなく、モデルの能力が着実に向上します。
これらの慎重に作成された設計は、主に検討されている 4 倍ブラインド超解像度ベンチマークのパフォーマンス向上に貢献し、大きな倍率、つまり 8 倍画像 SR ベンチマークにまで拡張されます。
コードは https://github.com/amandaluof/moe_sr で入手できます。

要約(オリジナル)

The recent use of diffusion prior, enhanced by pre-trained text-image models, has markedly elevated the performance of image super-resolution (SR). To alleviate the huge computational cost required by pixel-based diffusion SR, latent-based methods utilize a feature encoder to transform the image and then implement the SR image generation in a compact latent space. Nevertheless, there are two major issues that limit the performance of latent-based diffusion. First, the compression of latent space usually causes reconstruction distortion. Second, huge computational cost constrains the parameter scale of the diffusion model. To counteract these issues, we first propose a frequency compensation module that enhances the frequency components from latent space to pixel space. The reconstruction distortion (especially for high-frequency information) can be significantly decreased. Then, we propose to use Sample-Space Mixture of Experts (SS-MoE) to achieve more powerful latent-based SR, which steadily improves the capacity of the model without a significant increase in inference costs. These carefully crafted designs contribute to performance improvements in largely explored 4x blind super-resolution benchmarks and extend to large magnification factors, i.e., 8x image SR benchmarks. The code is available at https://github.com/amandaluof/moe_sr.

arxiv情報

著者 Feng Luo,Jinxi Xiang,Jun Zhang,Xiao Han,Wei Yang
発行日 2023-12-13 13:08:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク