Empowering Snapshot Compressive Imaging: Spatial-Spectral State Space Model with Across-Scanning and Local Enhancement


スナップショット圧縮イメージング(SCI)は、圧縮された測定値からハイパースペクトル画像(HSI)を再構成するために、CNNやTransformerのような復号化アルゴリズムに依存する。既存のCNNやTransformerベースの手法は効果的であることが証明されているが、CNNは長距離依存性のモデル化が不十分であるため限界があり、Transformerは2次的な複雑さのため計算コストが高いという問題を抱えている。最近のMambaモデルは、いくつかの視覚タスクにおいて、CNNやTransformerベースのアーキテクチャよりも優れた性能を実証しているが、これらのモデルは空間次元とスペクトル次元の両方における局所的な類似性を十分に利用していない。さらに、SSMの長シーケンスモデリング能力は、HSI再構成のための多数のスペクトル帯域の処理において優位性を提供する可能性があるが、これはまだ検討されていない。本論文では、ASLE-SSMと名付けられた、アクロススキャンとローカルエンハンスメントを伴う状態空間モデルを紹介する。ASLE-SSMは、グローバル・ローカルバランスの取れたコンテキストエンコーディングとクロスチャンネル相互作用の促進のために、空間-スペクトルSSMを採用する。具体的には、グローバルとローカルの受容野をバランスさせるために空間次元でのローカルスキャンを導入し、隣接するスペクトルバンドと画素間の局所的な類似性を利用して再構成プロセスを導くために、空間スペクトルローカルキューブに基づくクロススキャン法を提案する。これら2つのスキャニングメカニズムは、追加コストをかけることなく、グローバルな視点のバランスをとりながら、HSIのローカルな特徴を抽出する。実験結果は、ASLE-SSMが既存の最先端手法より優れていることを示しており、推論速度はTransformerベースのMSTより2.4倍速く、パラメータ数は0.12 (M)節約でき、計算コストとパラメータ数は最小を達成している。


Snapshot Compressive Imaging (SCI) relies on decoding algorithms such as CNN or Transformer to reconstruct the hyperspectral image (HSI) from its compressed measurement. Although existing CNN and Transformer-based methods have proven effective, CNNs are limited by their inadequate modeling of long-range dependencies, while Transformer ones face high computational costs due to quadratic complexity. Recent Mamba models have demonstrated superior performance over CNN and Transformer-based architectures in some visual tasks, but these models have not fully utilized the local similarities in both spatial and spectral dimensions. Moreover, the long-sequence modeling capability of SSM may offer an advantage in processing the numerous spectral bands for HSI reconstruction, which has not yet been explored. In this paper, we introduce a State Space Model with Across-Scanning and Local Enhancement, named ASLE-SSM, that employs a Spatial-Spectral SSM for global-local balanced context encoding and cross-channel interaction promoting. Specifically, we introduce local scanning in the spatial dimension to balance the global and local receptive fields, and then propose our across-scanning method based on spatial-spectral local cubes to leverage local similarities between adjacent spectral bands and pixels to guide the reconstruction process. These two scanning mechanisms extract the HSI’s local features while balancing the global perspective without any additional costs. Experimental results illustrate ASLE-SSM’s superiority over existing state-of-the-art methods, with an inference speed 2.4 times faster than Transformer-based MST and saving 0.12 (M) of parameters, achieving the lowest computational cost and parameter count.


著者 Wenzhe Tian,Haijin Zeng,Yin-Ping Zhao,Yongyong Chen,Zhen Wang,Xuelong Li
発行日 2024-08-01 15:14:10+00:00
カテゴリー: cs.CV, eess.IV パーマリンク