Learning Exhaustive Correlation for Spectral Super-Resolution: Where Spatial-Spectral Attention Meets Linear Dependence


簡単に入手できる RGB 画像からハイパースペクトル画像 (HSI) を復元することを目的としたスペクトル超解像は、コンピュテーショナル フォトグラフィーの分野でますます関心を集めています。
スペクトル超解像の重要な側面は、HSI 内の相関を利用することにあります。
しかし、既存の Transformer には 2 種類のボトルネックがあり、パフォーマンスの向上と実用的なアプリケーションが制限されています。
第一に、既存のトランスフォーマーは空間的相関またはスペクトル的相関のいずれかを個別に強調することが多く、HSI の 3D 機能を混乱させ、統一された空間スペクトル相関の活用を妨げます。
第二に、既存のセルフアテンション メカニズムは、トークンのペア間の相関を学習することによって常にフルランク相関行列を確立するため、複数のトークン間の HSI に広く存在する線形依存性を記述することができません。
これらの問題に対処するために、スペクトル超解像のための新しい徹底的相関変換器 (ECT) を提案します。
まず、空間的連続分割戦略とスペクトル的不連続分割戦略を統合することにより、統一された空間スペクトル相関をモデル化するスペクトル的不連続 3D (SD3D) 分割戦略を提案します。
2 番目に、動的に計算された低ランク依存マップを通じて複数のトークン間の線形依存をキャプチャする動的低ランク マッピング (DLRM) モデルを提案します。
統一された空間スペクトルの注意と線形依存性を統合することにより、私たちの ECT は HSI 内の徹底的な相関をモデル化できます。


Spectral super-resolution that aims to recover hyperspectral image (HSI) from easily obtainable RGB image has drawn increasing interest in the field of computational photography. The crucial aspect of spectral super-resolution lies in exploiting the correlation within HSIs. However, two types of bottlenecks in existing Transformers limit performance improvement and practical applications. First, existing Transformers often separately emphasize either spatial-wise or spectral-wise correlation, disrupting the 3D features of HSI and hindering the exploitation of unified spatial-spectral correlation. Second, existing self-attention mechanism always establishes full-rank correlation matrix by learning the correlation between pairs of tokens, leading to its inability to describe linear dependence widely existing in HSI among multiple tokens. To address these issues, we propose a novel Exhaustive Correlation Transformer (ECT) for spectral super-resolution. First, we propose a Spectral-wise Discontinuous 3D (SD3D) splitting strategy, which models unified spatial-spectral correlation by integrating spatial-wise continuous splitting strategy and spectral-wise discontinuous splitting strategy. Second, we propose a Dynamic Low-Rank Mapping (DLRM) model, which captures linear dependence among multiple tokens through a dynamically calculated low-rank dependence map. By integrating unified spatial-spectral attention and linear dependence, our ECT can model exhaustive correlation within HSI. The experimental results on both simulated and real data indicate that our method achieves state-of-the-art performance. Codes and pretrained models will be available later.


著者 Hongyuan Wang,Lizhi Wang,Jiang Xu,Chang Chen,Xue Hu,Fenglong Song,Youliang Yan
発行日 2024-03-18 09:02:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク