Advancements in Visual Language Models for Remote Sensing: Datasets, Capabilities, and Enhancement Techniques

要約

最近、ChatGPT の目覚ましい成功により、人工知能 (AI) への関心が再び高まり、視覚言語モデル (VLM) の進歩により、この熱意は新たな高みに押し上げられています。
一般にさまざまなタスクを識別モデルとして定式化する以前の AI アプローチとは異なり、VLM はタスクを生成モデルとして組み立て、言語と視覚情報を調整することで、より困難な問題の処理を可能にします。
非常に実用的な分野であるリモート センシング (RS) 分野もこの新しいトレンドを取り入れ、有望なパフォーマンスと大きな可能性を実証したいくつかの VLM ベースの RS 手法を導入しました。
この論文では、まず VLM に関連する基本理論を確認し、次にリモート センシングにおける VLM 用に構築されたデータセットと、それらが取り組むさまざまなタスクを要約します。
最後に、VLM のコア コンポーネントに従って改善方法を 3 つの主要な部分に分類し、これらの方法の詳細な紹介と比較を提供します。
このレビューに関連するプロジェクトは https://github.com/taolijie11111/VLMs-in-RS-review に作成されています。

要約(オリジナル)

Recently, the remarkable success of ChatGPT has sparked a renewed wave of interest in artificial intelligence (AI), and the advancements in visual language models (VLMs) have pushed this enthusiasm to new heights. Differring from previous AI approaches that generally formulated different tasks as discriminative models, VLMs frame tasks as generative models and align language with visual information, enabling the handling of more challenging problems. The remote sensing (RS) field, a highly practical domain, has also embraced this new trend and introduced several VLM-based RS methods that have demonstrated promising performance and enormous potential. In this paper, we first review the fundamental theories related to VLM, then summarize the datasets constructed for VLMs in remote sensing and the various tasks they addressed. Finally, we categorize the improvement methods into three main parts according to the core components of VLMs and provide a detailed introduction and comparison of these methods. A project associated with this review has been created at https://github.com/taolijie11111/VLMs-in-RS-review.

arxiv情報

著者 Lijie Tao,Haokui Zhang,Haizhao Jing,Yu Liu,Dawei Yan,Guoting Wei,Xizhe Xue
発行日 2025-01-02 04:13:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク