Frequency-Assisted Mamba for Remote Sensing Image Super-Resolution

要約

リモート センシング画像 (RSI) 超解像度 (SR) の最近の進歩は、畳み込みニューラル ネットワークやトランスフォーマーなどのディープ ニューラル ネットワークを使用して顕著なパフォーマンスを示しています。
しかし、既存の SR 手法は、多くの場合、限られた受容野または 2 次計算オーバーヘッドのいずれかに悩まされ、その結果、大規模 RSI では次善のグローバル表現と許容できない計算コストが発生します。
これらの問題を軽減するために、我々は、線形複雑さで長距離依存関係を捕捉することによって大規模な RSI の処理に特化した、RSI-SR 用の Vision State Space Model (Mamba) を統合する最初の試みを開発しました。
Mamba を基盤として、より優れた SR 再構成を実現するために、FMSR と呼ばれる周波数支援 Mamba フレームワークを考案し、空間相関と頻度相関を調査します。
特に、当社のFMSRは、周波数選択モジュール(FSM)、ビジョンステート空間モジュール(VSSM)、およびハイブリッドゲートモジュール(HGM)を備えたマルチレベル融合アーキテクチャを特徴としており、効果的な空間周波数融合のメリットを把握しています。
グローバルとローカルの依存関係は補完的であり、どちらも SR にとって有益であることを認識し、学習可能なスケーリング アダプターを介して正確な機能融合を実現するために、これらのマルチレベルの機能をさらに再調整します。
AID、DOTA、DIOR ベンチマークに関する広範な実験により、当社の FMSR は PSNR の点で最先端の Transformer ベースの手法である HAT-L を平均 0.11 dB 上回り、メモリ消費量はわずか 28.05% と 19.08% であることが実証されました。
それぞれ消費量と複雑さです。

要約(オリジナル)

Recent progress in remote sensing image (RSI) super-resolution (SR) has exhibited remarkable performance using deep neural networks, e.g., Convolutional Neural Networks and Transformers. However, existing SR methods often suffer from either a limited receptive field or quadratic computational overhead, resulting in sub-optimal global representation and unacceptable computational costs in large-scale RSI. To alleviate these issues, we develop the first attempt to integrate the Vision State Space Model (Mamba) for RSI-SR, which specializes in processing large-scale RSI by capturing long-range dependency with linear complexity. To achieve better SR reconstruction, building upon Mamba, we devise a Frequency-assisted Mamba framework, dubbed FMSR, to explore the spatial and frequent correlations. In particular, our FMSR features a multi-level fusion architecture equipped with the Frequency Selection Module (FSM), Vision State Space Module (VSSM), and Hybrid Gate Module (HGM) to grasp their merits for effective spatial-frequency fusion. Recognizing that global and local dependencies are complementary and both beneficial for SR, we further recalibrate these multi-level features for accurate feature fusion via learnable scaling adaptors. Extensive experiments on AID, DOTA, and DIOR benchmarks demonstrate that our FMSR outperforms state-of-the-art Transformer-based methods HAT-L in terms of PSNR by 0.11 dB on average, while consuming only 28.05% and 19.08% of its memory consumption and complexity, respectively.

arxiv情報

著者 Yi Xiao,Qiangqiang Yuan,Kui Jiang,Yuzeng Chen,Qiang Zhang,Chia-Wen Lin
発行日 2024-05-08 11:09:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク