Remote Sensing Spatio-Temporal Vision-Language Models: A Comprehensive Survey

要約

多時代のリモートセンシング画像の解釈は、バイナリまたはセマンティックマスクを生成する以前の変更検出方法である地球の動的プロセスを監視するために重要です。
ビジョン言語モデル(VLM)の最近の進歩は、視覚的および言語的モダリティを融合させ、時空間的視覚言語の理解を可能にすることにより、新しいフロンティアを開きました。変化を認識するための空間的および時間的依存関係をキャプチャするだけでなく、時間画像のより豊かなインタラクティブなセマンティック分析を提供します(例えば、自然言語の記述と回答の記述的なキャプテンと回答を生成します。
この調査では、RS-STVLMSの最初の包括的なレビューを紹介します。
この調査では、初期のタスク固有モデルから強力な大手言語モデルを活用する最近の一般的な基礎モデルへのモデルの進化をカバーしています。
キャプションの変更、質問への回答の変更、接地の変更など、代表的なタスクの進捗について説明します。
さらに、これらのモデルの根底にある基本的なコンポーネントと主要なテクノロジーを体系的に分析し、フィールドを駆動したデータセットと評価メトリックを確認します。
共有された建築パターンを深く掘り下げてタスクレベルの洞察を統合することにより、私たちは、リモートセンシングの時空間的視覚言語の理解における将来の研究のための現在の成果とチャートを照らすことを目指しています。
https://github.com/chen-yang-liu/awesome-rs-patiotempolal-vlmsで関連する作品を追跡します

要約(オリジナル)

The interpretation of multi-temporal remote sensing imagery is critical for monitoring Earth’s dynamic processes-yet previous change detection methods, which produce binary or semantic masks, fall short of providing human-readable insights into changes. Recent advances in Vision-Language Models (VLMs) have opened a new frontier by fusing visual and linguistic modalities, enabling spatio-temporal vision-language understanding: models that not only capture spatial and temporal dependencies to recognize changes but also provide a richer interactive semantic analysis of temporal images (e.g., generate descriptive captions and answer natural-language queries). In this survey, we present the first comprehensive review of RS-STVLMs. The survey covers the evolution of models from early task-specific models to recent general foundation models that leverage powerful large language models. We discuss progress in representative tasks, such as change captioning, change question answering, and change grounding. Moreover, we systematically dissect the fundamental components and key technologies underlying these models, and review the datasets and evaluation metrics that have driven the field. By synthesizing task-level insights with a deep dive into shared architectural patterns, we aim to illuminate current achievements and chart promising directions for future research in spatio-temporal vision-language understanding for remote sensing. We will keep tracing related works at https://github.com/Chen-Yang-Liu/Awesome-RS-SpatioTemporal-VLMs

arxiv情報

著者 Chenyang Liu,Jiafan Zhang,Keyan Chen,Man Wang,Zhengxia Zou,Zhenwei Shi
発行日 2025-05-22 16:49:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク