SRTransGAN: Image Super-Resolution using Transformer based Generative Adversarial Network

要約

画像の超解像は、低解像度の画像から高解像度の画像を合成することを目的としている。これは、低解像度の物体認識、医療画像の強調など、いくつかのアプリケーションにおける解像度の制限を克服するための活発な分野である。GAN(生成的敵対ネットワーク)ベースの手法は、CNN(畳み込みニューラルネットワーク)ベースの生成ネットワークと識別ネットワークを利用することで、画像超解像のための最先端技術となっている。しかし、CNNは、自己注意メカニズムを利用することによって深層学習における最近のブレークスルーである変換器とは対照的に、グローバルな情報を非常に効果的に利用することができない。言語と視覚の応用における変換器の成功から動機づけられ、我々は、変換器ベースのGANを用いた画像超解像のためのSRTransGANを提案する。具体的には、2倍画像と4倍画像を生成する生成器として、新しい変換器ベースのエンコーダ・デコーダネットワークを提案する。視覚変換器を用いた識別器ネットワークは、画像をパッチのシーケンスとして用いるため、合成画像と実画像の2値分類に有用である。提案するSRTransGANは、PSNRとSSIMスコアの平均において、既存の手法を4.38%上回る。また、提案手法の学習能力を理解するために、顕著性マップを分析する。

要約(オリジナル)

Image super-resolution aims to synthesize high-resolution image from a low-resolution image. It is an active area to overcome the resolution limitations in several applications like low-resolution object-recognition, medical image enhancement, etc. The generative adversarial network (GAN) based methods have been the state-of-the-art for image super-resolution by utilizing the convolutional neural networks (CNNs) based generator and discriminator networks. However, the CNNs are not able to exploit the global information very effectively in contrast to the transformers, which are the recent breakthrough in deep learning by exploiting the self-attention mechanism. Motivated from the success of transformers in language and vision applications, we propose a SRTransGAN for image super-resolution using transformer based GAN. Specifically, we propose a novel transformer-based encoder-decoder network as a generator to generate 2x images and 4x images. We design the discriminator network using vision transformer which uses the image as sequence of patches and hence useful for binary classification between synthesized and real high-resolution images. The proposed SRTransGAN outperforms the existing methods by 4.38 % on an average of PSNR and SSIM scores. We also analyze the saliency map to understand the learning ability of the proposed method.

arxiv情報

著者 Neeraj Baghel,Shiv Ram Dubey,Satish Kumar Singh
発行日 2023-12-04 16:22:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, eess.IV パーマリンク