DynamicVis: An Efficient and General Visual Foundation Model for Remote Sensing Image Understanding

要約

リモートセンシングテクノロジーの進歩により、衛星画像の空間解像度が改善され、多様な解釈のためのより詳細な視覚表現が促進されました。
ただし、既存の方法は、さまざまなアプリケーション全体で限られた一般化機能を示しています。
一部の現代の基礎モデルは潜在能力を示していますが、クロスタスクの適応性が不十分であり、主に制限されたサイズの低解像度の画像を処理することで妨げられているため、高解像度のデータを完全に活用したり、包括的な大型セマンティクスを活用したりしません。
重要なことに、リモートセンシングの画像は、主要な前景ターゲット(たとえば、海上物体、人工構造など)が最小限の空間的割合(〜1%)を占め、まばらな分布を示すため、自然な画像と根本的に異なります。
長い2Dトークン(〜100,000)からのクロスタスクの一般化可能な知識を効率的にモデリングすることは、重要な課題をもたらしますが、リモートセンシング画像の理解には重要です。
人間の視覚システムに固有の選択的注意メカニズムに動機付けられ、リモートセンシング画像の動的視覚認識基盤モデルであるDynamicvisを提案します。
フレームワークは、選択的状態空間モデルに基づいて新しい動的領域知覚バックボーンを統合します。これは、局所的な詳細抽出とグローバルなコンテキスト統合と戦略的にバランスを取り、アーキテクチャのスケーラビリティを維持しながら大規模データの計算効率的なエンコードを可能にします。
クロスタスクの知識転送を強化するために、メタ埋め込み表現を利用したマルチインスタンス学習パラダイムを導入し、100万台の地域レベルの注釈で訓練されています。
9つのダウンストリームタスクにわたる評価は、モデルの汎用性を示しています。
DynamicVisは、並外れた効率、処理(2048×2048)ピクセルで97ミリ秒(VITの6%)および833 MB GPUメモリ(VITの3%)でマルチレベル機能モデリングを実現します。

要約(オリジナル)

The advancement of remote sensing technology has improved the spatial resolution of satellite imagery, facilitating more detailed visual representations for diverse interpretations. However, existing methods exhibit limited generalization capabilities across varied applications. While some contemporary foundation models demonstrate potential, they are hindered by insufficient cross-task adaptability and primarily process low-resolution imagery of restricted sizes, thus failing to fully exploit high-resolution data or leverage comprehensive large-scene semantics. Crucially, remote sensing imagery differs fundamentally from natural images, as key foreground targets (eg., maritime objects, artificial structures) often occupy minimal spatial proportions (~1%) and exhibit sparse distributions. Efficiently modeling cross-task generalizable knowledge from lengthy 2D tokens (~100,000) poses a significant challenge yet remains critical for remote sensing image understanding. Motivated by the selective attention mechanisms inherent to the human visual system, we propose DynamicVis, a dynamic visual perception foundation model for remote sensing imagery. The framework integrates a novel dynamic region perception backbone based on the selective state space model, which strategically balances localized detail extraction with global contextual integration, enabling computationally efficient encoding of large-scale data while maintaining architectural scalability. To enhance cross-task knowledge transferring, we introduce a multi-instance learning paradigm utilizing meta-embedding representations, trained on million-scale region-level annotations. Evaluations across nine downstream tasks demonstrate the model’s versatility. DynamicVis achieves multi-level feature modeling with exceptional efficiency, processing (2048×2048) pixels with 97 ms latency (6% of ViT’s) and 833 MB GPU memory (3% of ViT’s).

arxiv情報

著者 Keyan Chen,Chenyang Liu,Bowen Chen,Wenyuan Li,Zhengxia Zou,Zhenwei Shi
発行日 2025-03-20 17:59:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク