RS-vHeat: Heat Conduction Guided Efficient Remote Sensing Foundation Model

要約

リモートセンシングファンデーションモデルは、タスク固有のモデルを設計するという従来のパラダイムから大きく脱却し、複数のタスクでより大きなスケーラビリティを提供します。
ただし、特に大規模なリモートセンシング画像を扱う場合、計算効率が低く、解釈可能性が限られているなどの課題に直面しています。
これらを克服するために、局所熱拡散をモデル化する物理的プロセスである熱伝導からインスピレーションを引き出します。
このアイデアに基づいて、私たちは熱伝導の並列コンピューティングモデルを使用して、高解像度のリモートセンシング画像のローカル領域相関をシミュレートし、効率的なマルチモーダルリモートセンシングファンデーションモデルであるRS-Vheatを導入する可能性を最初に調査しました。
具体的には、rs-vheat 1)$ o(n^{1.5})$の複雑さで熱伝導演算子(HCO)を適用し、グローバル受容フィールドで計算オーバーヘッドを減らしながら、リモートセンシングオブジェクト構造情報をキャプチャして熱拡散を誘導します。
2)周波数ドメインの階層マスキングとマルチドメインの再構築に基づいた自己監視戦略を通じて、さまざまなシーンの頻度分布表現を学習します。
3)4つのタスクと10のデータセットにわたる最先端のテクニックよりも効率とパフォーマンスを大幅に向上させます。
注意ベースのリモートセンシングファンデーションモデルと比較して、メモリの使用量を84 \%、24 \%減少させ、スループットを2.7倍改善します。
コードは公開されます。

要約(オリジナル)

Remote sensing foundation models largely break away from the traditional paradigm of designing task-specific models, offering greater scalability across multiple tasks. However, they face challenges such as low computational efficiency and limited interpretability, especially when dealing with large-scale remote sensing images. To overcome these, we draw inspiration from heat conduction, a physical process modeling local heat diffusion. Building on this idea, we are the first to explore the potential of using the parallel computing model of heat conduction to simulate the local region correlations in high-resolution remote sensing images, and introduce RS-vHeat, an efficient multi-modal remote sensing foundation model. Specifically, RS-vHeat 1) applies the Heat Conduction Operator (HCO) with a complexity of $O(N^{1.5})$ and a global receptive field, reducing computational overhead while capturing remote sensing object structure information to guide heat diffusion; 2) learns the frequency distribution representations of various scenes through a self-supervised strategy based on frequency domain hierarchical masking and multi-domain reconstruction; 3) significantly improves efficiency and performance over state-of-the-art techniques across 4 tasks and 10 datasets. Compared to attention-based remote sensing foundation models, we reduce memory usage by 84\%, FLOPs by 24\% and improves throughput by 2.7 times. The code will be made publicly available.

arxiv情報

著者 Huiyang Hu,Peijin Wang,Hanbo Bi,Boyuan Tong,Zhaozhi Wang,Wenhui Diao,Hao Chang,Yingchao Feng,Ziqi Zhang,Yaowei Wang,Qixiang Ye,Kun Fu,Xian Sun
発行日 2025-03-07 13:24:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク