DLGSANet: Lightweight Dynamic Local and Global Self-Attention Networks for Image Super-Resolution

要約

我々は、画像の超解像を解くために、効果的な軽量動的局所・大域自己注意ネットワーク(DLGSANet)を提案する。本手法は、Transformersの特性を追求しつつ、低い計算コストで実現する。Transformerのネットワーク設計に動機付けられ、我々は局所的な特徴を効率的に抽出するために、シンプルかつ効果的なマルチヘッド動的局所自己注意(MHDLSA)モジュールを開発する。また、既存のTransformerは通常、特徴集約のためにクエリとキーの間のトークンの類似性を全て探索することに注目する。しかし、クエリに含まれる全てのトークンがキーに含まれるトークンと関連するとは限らないため、全ての類似性を用いることは高解像度画像の再構成を効果的に促進することができない。この問題を解決するために、我々は、最も有用な大域的特徴を高解像度画像再構成に利用できるように、最も有用な類似度を選択するスパース大域的自己注意(SparseGSA)モジュールを開発する。また、MHDLSAとSparseGSAを統合したハイブリッド動的変換ブロック(HDTB)を開発し、局所特徴量と大域的特徴量の両方を探索する。ネットワーク学習を容易にするため、HDTBをresidual hybrid dynamic-Transformer group(RHDTG)に定式化する。RHDTGをエンドツーエンドで学習可能なネットワークに組み込むことで、提案手法はより少ないネットワークパラメータとより低い計算コストで、精度の面で最新のものと競合する性能を達成できることを示す。より詳しい情報は、https://neonleexiang.github.io/DLGSANet/。

要約(オリジナル)

We propose an effective lightweight dynamic local and global self-attention network (DLGSANet) to solve image super-resolution. Our method explores the properties of Transformers while having low computational costs. Motivated by the network designs of Transformers, we develop a simple yet effective multi-head dynamic local self-attention (MHDLSA) module to extract local features efficiently. In addition, we note that existing Transformers usually explore all similarities of the tokens between the queries and keys for the feature aggregation. However, not all the tokens from the queries are relevant to those in keys, using all the similarities does not effectively facilitate the high-resolution image reconstruction. To overcome this problem, we develop a sparse global self-attention (SparseGSA) module to select the most useful similarity values so that the most useful global features can be better utilized for the high-resolution image reconstruction. We develop a hybrid dynamic-Transformer block(HDTB) that integrates the MHDLSA and SparseGSA for both local and global feature exploration. To ease the network training, we formulate the HDTBs into a residual hybrid dynamic-Transformer group (RHDTG). By embedding the RHDTGs into an end-to-end trainable network, we show that our proposed method has fewer network parameters and lower computational costs while achieving competitive performance against state-of-the-art ones in terms of accuracy. More information is available at https://neonleexiang.github.io/DLGSANet/

arxiv情報

著者 Xiang Li,Jinshan Pan,Jinhui Tang,Jiangxin Dong
発行日 2023-01-05 12:06:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク