SeD: Semantic-Aware Discriminator for Image Super-Resolution

要約

Generative Adversarial Networks (GAN) は、画像の超解像度 (SR) タスクで鮮明なテクスチャを復元するために広く使用されています。
特に、SR ネットワークが敵対的トレーニング方式で現実世界の高品質画像の分布を学習できるようにするために、1 つの識別器が利用されます。
ただし、分布学習は粒度が粗すぎるため、仮想テクスチャの影響を受けやすく、直感に反する生成結果を引き起こします。
これを軽減するために、我々はシンプルで効果的な Semantic-aware Discriminator (SeD と表記) を提案します。これは、画像のセマンティクスを条件として導入することで、SR ネットワークがきめ細かい分布を学習することを促進します。
具体的には、よく訓練された意味抽出器から画像の意味を発掘することを目指しています。
さまざまなセマンティクスの下で、ディスクリミネーターは本物の画像と偽の画像を個別に適応的に区別することができ、これにより SR ネットワークはよりきめの細かいセマンティクスを意識したテクスチャを学習するようになります。
正確で豊富なセマンティクスを取得するために、広範なデータセットを備えた最近人気のある事前トレーニング済みビジョン モデル (PVM) を最大限に活用し、適切に設計された空間クロスアテンション モジュールを通じてそのセマンティクス機能を識別器に組み込みます。
このようにして、私たちが提案した意味認識弁別器は、SR ネットワークがより写真のようにリアルで心地よい画像を生成できるようにしました。
2 つの典型的なタスク、つまり SR と Real SR に関する広範な実験により、提案した手法の有効性が実証されました。

要約(オリジナル)

Generative Adversarial Networks (GANs) have been widely used to recover vivid textures in image super-resolution (SR) tasks. In particular, one discriminator is utilized to enable the SR network to learn the distribution of real-world high-quality images in an adversarial training manner. However, the distribution learning is overly coarse-grained, which is susceptible to virtual textures and causes counter-intuitive generation results. To mitigate this, we propose the simple and effective Semantic-aware Discriminator (denoted as SeD), which encourages the SR network to learn the fine-grained distributions by introducing the semantics of images as a condition. Concretely, we aim to excavate the semantics of images from a well-trained semantic extractor. Under different semantics, the discriminator is able to distinguish the real-fake images individually and adaptively, which guides the SR network to learn the more fine-grained semantic-aware textures. To obtain accurate and abundant semantics, we take full advantage of recently popular pretrained vision models (PVMs) with extensive datasets, and then incorporate its semantic features into the discriminator through a well-designed spatial cross-attention module. In this way, our proposed semantic-aware discriminator empowered the SR network to produce more photo-realistic and pleasing images. Extensive experiments on two typical tasks, i.e., SR and Real SR have demonstrated the effectiveness of our proposed methods.

arxiv情報

著者 Bingchen Li,Xin Li,Hanxin Zhu,Yeying Jin,Ruoyu Feng,Zhizheng Zhang,Zhibo Chen
発行日 2024-02-29 17:38:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク