High-Resolution GAN Inversion for Degraded Images in Large Diverse Datasets

要約

ここ数十年、膨大かつ多様な画像データが存在し、その解像度と品質はますます向上しています。しかし、得られた画像の中には、知覚や下流のタスクの適用に影響を与えるような劣化した画像もある。そのため、劣化した画像から高品質な画像を生成する汎用的な手法が求められている。本論文では、この問題に対して、StyleGAN-XLの強力な生成能力を利用した新しいGAN反転フレームワークを紹介します。StyleGAN-XL を用いた反転の課題を解決するために、Clustering \& Regularize Inversion (CRI) が提案されています。具体的には、まず潜在空間をクラスタリングにより、より細かい部分空間に分割します。そして、平均的な潜像ベクトルで反転を初期化するのではなく、クラスタからセントロイド潜像ベクトルを近似的に求め、入力画像に近い画像を生成する。そして、正則化項を用いたオフセットを導入し、反転潜像ベクトルを一定範囲内に収める。我々は、複雑な自然画像の複数の復元タスク(すなわち、インペインティング、カラー化、超解像)において、我々のCRI方式を検証し、好ましい定量的・定性的結果を示す。さらに、我々の手法がデータや異なるGANモデルに対してロバストであることを示す。我々の知る限り、多様な劣化した入力から高品質の自然画像を生成するためにStyleGAN-XLを採用したのは我々が初めてである。コードは https://github.com/Booooooooooo/CRI で公開されています。

要約(オリジナル)

The last decades are marked by massive and diverse image data, which shows increasingly high resolution and quality. However, some images we obtained may be corrupted, affecting the perception and the application of downstream tasks. A generic method for generating a high-quality image from the degraded one is in demand. In this paper, we present a novel GAN inversion framework that utilizes the powerful generative ability of StyleGAN-XL for this problem. To ease the inversion challenge with StyleGAN-XL, Clustering \& Regularize Inversion (CRI) is proposed. Specifically, the latent space is firstly divided into finer-grained sub-spaces by clustering. Instead of initializing the inversion with the average latent vector, we approximate a centroid latent vector from the clusters, which generates an image close to the input image. Then, an offset with a regularization term is introduced to keep the inverted latent vector within a certain range. We validate our CRI scheme on multiple restoration tasks (i.e., inpainting, colorization, and super-resolution) of complex natural images, and show preferable quantitative and qualitative results. We further demonstrate our technique is robust in terms of data and different GAN models. To our best knowledge, we are the first to adopt StyleGAN-XL for generating high-quality natural images from diverse degraded inputs. Code is available at https://github.com/Booooooooooo/CRI.

arxiv情報

著者 Yanbo Wang,Chuming Lin,Donghao Luo,Ying Tai,Zhizhong Zhang,Yuan Xie
発行日 2023-02-07 11:24:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク