Multi-scale Attention Network for Single Image Super-Resolution

要約

大規模なカーネル分解とアテンション メカニズムを利用することで、畳み込みニューラル ネットワーク (CNN) は、多くの高レベルのコンピューター ビジョン タスクでトランスフォーマー ベースの方法と競合できます。
ただし、長距離モデリングの利点により、自己注意を持つトランスフォーマーは、超解像タスクを含む低レベルのビジョンを依然として支配しています。
この論文では、畳み込みSRネットワークのパフォーマンスを向上させるために、マルチスケールラージカーネルアテンション(MLKA)とゲート空間アテンションユニット(GSAU)で構成されるCNNベースのマルチスケールアテンションネットワーク(MAN)を提案します。
MLKA 内で、マルチスケールおよびゲート スキームを使用して LKA を修正し、さまざまな粒度レベルで豊富なアテンション マップを取得します。したがって、グローバル情報とローカル情報を共同で集約し、潜在的なブロッキング アーティファクトを回避します。
GSAU では、ゲート メカニズムと空間的注意を統合して、不要な線形レイヤーを削除し、有益な空間コンテキストを集約します。
設計の有効性を確認するために、さまざまな数の MLKA と GSAU を単純に積み重ねることで、複数の複雑さを持つ MAN を評価します。
実験結果は、MAN が最先端のパフォーマンスと計算の間でさまざまなトレードオフを達成できることを示しています。
コードは https://github.com/icandle/MAN で入手できます。

要約(オリジナル)

By exploiting large kernel decomposition and attention mechanisms, convolutional neural networks (CNN) can compete with transformer-based methods in many high-level computer vision tasks. However, due to the advantage of long-range modeling, the transformers with self-attention still dominate the low-level vision, including the super-resolution task. In this paper, we propose a CNN-based multi-scale attention network (MAN), which consists of multi-scale large kernel attention (MLKA) and a gated spatial attention unit (GSAU), to improve the performance of convolutional SR networks. Within our MLKA, we rectify LKA with multi-scale and gate schemes to obtain the abundant attention map at various granularity levels, therefore jointly aggregating global and local information and avoiding the potential blocking artifacts. In GSAU, we integrate gate mechanism and spatial attention to remove the unnecessary linear layer and aggregate informative spatial context. To confirm the effectiveness of our designs, we evaluate MAN with multiple complexities by simply stacking different numbers of MLKA and GSAU. Experimental results illustrate that our MAN can achieve varied trade-offs between state-of-the-art performance and computations. Code is available at https://github.com/icandle/MAN.

arxiv情報

著者 Yan Wang,Yusen Li,Gang Wang,Xiaoguang Liu
発行日 2022-09-29 05:34:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク