HyperSIGMA: Hyperspectral Intelligence Comprehension Foundation Model

要約

正確なハイパースペクトル画像(HSI)解釈は、都市計画、精密農業、環境監視などのさまざまな地球観測関連のアプリケーションに貴重な洞察を提供するために重要です。
ただし、既存のHSI処理方法は主にタスク固有でシーン依存性であり、タスクやシーン全体で知識を転送する能力を厳しく制限し、それにより実際のアプリケーションの実用性が低下します。
これらの課題に対処するために、タスクやシーン全体でHSIの解釈を統合するビジョン変圧器ベースの基礎モデルであるハイパーイングマを提示します。
HSISに固有のスペクトルと空間の冗長性を克服するために、多様な文脈的特徴の学習を効果的に促進し、ハイパー微分の基本的なブロックとして機能する新しいスパースサンプリング注意(SSA)メカニズムを導入します。
Hypersigmaは、特別に設計されたスペクトル強化モジュールを使用して、空間的特徴とスペクトル機能を統合します。
さらに、約450kのハイパースペクトル画像を含むトレーニング前の大規模なハイパースペクトルデータセット、Hyperglobal-450Kを作成し、既存のデータセットを大規模に著しく上回ります。
さまざまな高レベルおよび低レベルのHSIタスクに関する広範な実験は、現在の最新方法と比較して、ハイパーイングマの汎用性と優れた表現能力を示しています。
さらに、ハイパーイングマは、スケーラビリティ、堅牢性、クロスモーダル転送能力、現実世界の適用性、および計算効率に大きな利点を示します。
コードとモデルはhttps://github.com/whu-sigma/hypersigmaでリリースされます。

要約(オリジナル)

Accurate hyperspectral image (HSI) interpretation is critical for providing valuable insights into various earth observation-related applications such as urban planning, precision agriculture, and environmental monitoring. However, existing HSI processing methods are predominantly task-specific and scene-dependent, which severely limits their ability to transfer knowledge across tasks and scenes, thereby reducing the practicality in real-world applications. To address these challenges, we present HyperSIGMA, a vision transformer-based foundation model that unifies HSI interpretation across tasks and scenes, scalable to over one billion parameters. To overcome the spectral and spatial redundancy inherent in HSIs, we introduce a novel sparse sampling attention (SSA) mechanism, which effectively promotes the learning of diverse contextual features and serves as the basic block of HyperSIGMA. HyperSIGMA integrates spatial and spectral features using a specially designed spectral enhancement module. In addition, we construct a large-scale hyperspectral dataset, HyperGlobal-450K, for pre-training, which contains about 450K hyperspectral images, significantly surpassing existing datasets in scale. Extensive experiments on various high-level and low-level HSI tasks demonstrate HyperSIGMA’s versatility and superior representational capability compared to current state-of-the-art methods. Moreover, HyperSIGMA shows significant advantages in scalability, robustness, cross-modal transferring capability, real-world applicability, and computational efficiency. The code and models will be released at https://github.com/WHU-Sigma/HyperSIGMA.

arxiv情報

著者 Di Wang,Meiqi Hu,Yao Jin,Yuchun Miao,Jiaqi Yang,Yichu Xu,Xiaolei Qin,Jiaqi Ma,Lingyu Sun,Chenxing Li,Chuan Fu,Hongruixuan Chen,Chengxi Han,Naoto Yokoya,Jing Zhang,Minqiang Xu,Lin Liu,Lefei Zhang,Chen Wu,Bo Du,Dacheng Tao,Liangpei Zhang
発行日 2025-04-01 15:14:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク