GLEAN: Generative Latent Bank for Image Super-Resolution and Beyond

要約

StyleGANやBigGANなどの事前トレーニング済みのGenerative Adversarial Networks(GAN)を潜在バンクとして使用して、画像の超解像のパフォーマンスを向上できることを示します。
ほとんどの既存の知覚指向のアプローチは、敵対的損失を伴う学習を通じて現実的な出力を生成しようとしますが、私たちの方法である Generative LatEnt bANk (GLEAN) は、事前に訓練された GAN にカプセル化された豊富で多様な事前確率を直接活用することにより、既存の慣行を超えています。
しかし、実行時に高価なイメージ固有の最適化を必要とする一般的な GAN 反転メソッドとは異なり、私たちのアプローチでは、復元に 1 つのフォワード パスしか必要ありません。
GLEAN は、マルチ解像度スキップ接続を備えた単純なエンコーダー – バンク – デコーダー アーキテクチャに簡単に組み込むことができます。
さまざまな生成モデルからの事前確率を使用することで、GLEAN をさまざまなカテゴリ (たとえば、人間の顔、猫、建物、車) に適用できます。
さらに、GLEAN の重要なコンポーネントのみを保持する LightGLEAN という名前の GLEAN の軽量バージョンを紹介します。
特に、LightGLEAN は 21% のパラメーターと 35% の FLOP で構成され、同等の画質を実現します。
画像の色付けやブラインド画像の復元などのさまざまなタスクにこの方法を拡張し、広範な実験により、提案されたモデルが既存の方法と比較して有利に機能することが示されています。
コードとモデルは https://github.com/open-mmlab/mmediting で入手できます。

要約(オリジナル)

We show that pre-trained Generative Adversarial Networks (GANs) such as StyleGAN and BigGAN can be used as a latent bank to improve the performance of image super-resolution. While most existing perceptual-oriented approaches attempt to generate realistic outputs through learning with adversarial loss, our method, Generative LatEnt bANk (GLEAN), goes beyond existing practices by directly leveraging rich and diverse priors encapsulated in a pre-trained GAN. But unlike prevalent GAN inversion methods that require expensive image-specific optimization at runtime, our approach only needs a single forward pass for restoration. GLEAN can be easily incorporated in a simple encoder-bank-decoder architecture with multi-resolution skip connections. Employing priors from different generative models allows GLEAN to be applied to diverse categories (\eg~human faces, cats, buildings, and cars). We further present a lightweight version of GLEAN, named LightGLEAN, which retains only the critical components in GLEAN. Notably, LightGLEAN consists of only 21% of parameters and 35% of FLOPs while achieving comparable image quality. We extend our method to different tasks including image colorization and blind image restoration, and extensive experiments show that our proposed models perform favorably in comparison to existing methods. Codes and models are available at https://github.com/open-mmlab/mmediting.

arxiv情報

著者 Kelvin C. K. Chan,Xiangyu Xu,Xintao Wang,Jinwei Gu,Chen Change Loy
発行日 2022-07-29 17:59:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク