LKFormer: Large Kernel Transformer for Infrared Image Super-Resolution

要約

さまざまな分野にわたる赤外線技術の広範な応用を考慮して、深層学習の領域内での赤外線画像の超解像度技術の研究にますます重点が置かれています。
画像の超解像度タスクにおける現在の Transformer ベースの手法は素晴らしい結果をもたらしていますが、Transformer アーキテクチャに固有の自己注意メカニズムに依存しているため、画像が 1 次元のシーケンスとして扱われ、その固有の 2 次元構造が無視されます。
さらに、赤外線画像は均一なピクセル分布と限られた勾配範囲を示すため、モデルが効果的な特徴情報を取得することが困難になります。
したがって、この問題に対処するために、Large Kernel Transformer (LKFormer) と呼ばれる強力な Transformer モデルを提案します。
具体的には、線形複雑性を備えた Large Kernel Residual Attendance (LKRA) モジュールを設計しました。
これは主に、大きなカーネルによる深さ方向の畳み込みを使用して非局所特徴モデリングを実行し、それによって標準のセルフアテンティブ層を置き換えます。
さらに、ネットワーク内の情報フローを管理する LKFormer の能力を強化するために、ゲートピクセル フィードフォワード ネットワーク (GPFN) と呼ばれる新しいフィードフォワード ネットワーク構造を考案しました。
包括的な実験結果により、私たちの手法は利用可能な最も高度な技術を上回っており、使用するパラメーターが少なく、かなり優れたパフォーマンスが得られることが明らかになりました。ソース コードは https://github.com/sad192/large-kernel-Transformer で入手できます。

要約(オリジナル)

Given the broad application of infrared technology across diverse fields, there is an increasing emphasis on investigating super-resolution techniques for infrared images within the realm of deep learning. Despite the impressive results of current Transformer-based methods in image super-resolution tasks, their reliance on the self-attentive mechanism intrinsic to the Transformer architecture results in images being treated as one-dimensional sequences, thereby neglecting their inherent two-dimensional structure. Moreover, infrared images exhibit a uniform pixel distribution and a limited gradient range, posing challenges for the model to capture effective feature information. Consequently, we suggest a potent Transformer model, termed Large Kernel Transformer (LKFormer), to address this issue. Specifically, we have designed a Large Kernel Residual Attention (LKRA) module with linear complexity. This mainly employs depth-wise convolution with large kernels to execute non-local feature modeling, thereby substituting the standard self-attentive layer. Additionally, we have devised a novel feed-forward network structure called Gated-Pixel Feed-Forward Network (GPFN) to augment the LKFormer’s capacity to manage the information flow within the network. Comprehensive experimental results reveal that our method surpasses the most advanced techniques available, using fewer parameters and yielding considerably superior performance.The source code will be available at https://github.com/sad192/large-kernel-Transformer.

arxiv情報

著者 Feiwei Qin,Kang Yan,Changmiao Wang,Ruiquan Ge,Yong Peng,Kai Zhang
発行日 2024-01-24 11:24:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク