Large coordinate kernel attention network for lightweight image super-resolution

要約

マルチスケール受容野とラージ カーネル アテンション (LKA) モジュールは、軽量画像超解像度タスクのパフォーマンスを大幅に向上させることが示されています。
しかし、既存の軽量超解像 (SR) 手法では、ローカル モデリング用のマルチスケール受容野を備えた効率的なビルディング ブロックの設計にはほとんど注意が払われず、その LKA モジュールは、畳み込みカーネルのサイズが増加するにつれて、計算量とメモリのフットプリントが 2 次的に増加するという問題に直面しています。
最初の問題に対処するために、マルチスケール受容野を備えた高効率ビルディング ブロックとしてマルチスケール ブループリント分離可能畳み込み (MBSConv) を提案します。これは、識別表現の重要な要素であるマルチスケール情報の学習に焦点を当てることができます。

2 番目の問題に関しては、LKA の主要な特性を再検討します。そこでは、ローカル情報と長距離依存関係の隣接する直接相互作用が、優れたパフォーマンスを提供するために重要であることがわかります。
したがって、これを考慮して、LKA の複雑さを軽減するために、LKA の深さ方向の畳み込み層の 2D 畳み込みカーネルを水平および垂直 1 次元カーネルに分解する大規模座標カーネル アテンション (LCKA) モジュールを提案します。

LCKA は、水平方向だけでなく垂直方向でも、ローカル情報と長距離依存関係の隣接した直接相互作用を可能にします。
さらに、LCKA では、深さ方向の畳み込み層で非常に大きなカーネルを直接使用して、より多くのコンテキスト情報を取得できるため、再構築のパフォーマンスが大幅に向上し、計算の複雑さとメモリの使用量が削減されます。
MBSConv と LCKA を統合して、大規模座標カーネル アテンション ネットワーク (LCAN) を提案します。

要約(オリジナル)

The multi-scale receptive field and large kernel attention (LKA) module have been shown to significantly improve performance in the lightweight image super-resolution task. However, existing lightweight super-resolution (SR) methods seldom pay attention to designing efficient building block with multi-scale receptive field for local modeling, and their LKA modules face a quadratic increase in computational and memory footprints as the convolutional kernel size increases. To address the first issue, we propose the multi-scale blueprint separable convolutions (MBSConv) as highly efficient building block with multi-scale receptive field, it can focus on the learning for the multi-scale information which is a vital component of discriminative representation. As for the second issue, we revisit the key properties of LKA in which we find that the adjacent direct interaction of local information and long-distance dependencies is crucial to provide remarkable performance. Thus, taking this into account and in order to mitigate the complexity of LKA, we propose a large coordinate kernel attention (LCKA) module which decomposes the 2D convolutional kernels of the depth-wise convolutional layers in LKA into horizontal and vertical 1-D kernels. LCKA enables the adjacent direct interaction of local information and long-distance dependencies not only in the horizontal direction but also in the vertical. Besides, LCKA allows for the direct use of extremely large kernels in the depth-wise convolutional layers to capture more contextual information, which helps to significantly improve the reconstruction performance, and it incurs lower computational complexity and memory footprints. Integrating MBSConv and LCKA, we propose a large coordinate kernel attention network (LCAN).

arxiv情報

著者 Fangwei Hao,Jiesheng Wu,Haotian Lu,Ji Du,Jing Xu,Xiaoxuan Xu
発行日 2024-08-30 12:41:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク