GAIA: A Global, Multi-modal, Multi-scale Vision-Language Dataset for Remote Sensing Image Analysis

要約

地球軌道衛星の連続動作は、リモートセンシング(RS)画像の広大で成長し続けるアーカイブを生成します。
Natural Languageは、そのようなアーカイブからのデータにアクセス、クエリ、および解釈するための直感的なインターフェイスを提示します。
ただし、既存のビジョン言語モデル(VLM)は、主にWebスクレイプされたノイズの多い画像テキストデータでトレーニングされており、Rsの特殊なドメインへの限定された暴露を示しています。
一般的に使用されるデータセットには詳細で科学的に正確なテキストの説明が欠けており、代わりに日付や場所などの属性のみを強調するため、RS固有のタスクのパフォーマンスが低下します。
このクリティカルギャップを埋めるために、マルチスケール、マルチセンサー、マルチモーダルRS画像分析用に設計された新しいデータセットであるGaiaを紹介します。
Gaiaは、さまざまな空間解像度に関連する多様なRSモダリティを表す、205,150の細心の注意を払ってキュレーションされたRS画像テキストペアで構成されています。
RSの既存のビジョン言語データセットとは異なり、GAIAはさまざまな範囲のRSアプリケーションのキャプチャに焦点を当てており、環境の変化、自然災害、およびその他のさまざまな動的現象に関するユニークな情報を提供します。
データセットは、世界中の空間的および一時的にバランスの取れた分布を提供し、過去25年間を観測のバランスの取れた時間分布でカバーします。
GAIAの構造には、2段階のプロセスが含まれていました。(1)評判の良いRS関連のソースからの画像のターゲットWebスクレイピングと付随するテキスト、および(2)慎重に作成されたプロンプトを使用して各画像の5つの高品質で科学的に接地された合成キャプションの生成
GPT-4oの高度なビジョン言語機能を活用します。
クリップモデルとBLIP2モデルの微調整を含む当社の広範な実験は、GAIAがRS画像分類、クロスモーダル検索、画像キャプションのタスクのパフォーマンスを大幅に改善することを示しています。

要約(オリジナル)

The continuous operation of Earth-orbiting satellites generates vast and ever-growing archives of Remote Sensing (RS) images. Natural language presents an intuitive interface for accessing, querying, and interpreting the data from such archives. However, existing Vision-Language Models (VLMs) are predominantly trained on web-scraped, noisy image-text data, exhibiting limited exposure to the specialized domain of RS. This deficiency results in poor performance on RS-specific tasks, as commonly used datasets often lack detailed, scientifically accurate textual descriptions and instead emphasize solely on attributes like date and location. To bridge this critical gap, we introduce GAIA, a novel dataset designed for multi-scale, multi-sensor, and multi-modal RS image analysis. GAIA comprises of 205,150 meticulously curated RS image-text pairs, representing a diverse range of RS modalities associated to different spatial resolutions. Unlike existing vision-language datasets in RS, GAIA specifically focuses on capturing a diverse range of RS applications, providing unique information about environmental changes, natural disasters, and various other dynamic phenomena. The dataset provides a spatially and temporally balanced distribution, spanning across the globe, covering the last 25 years with a balanced temporal distribution of observations. GAIA’s construction involved a two-stage process: (1) targeted web-scraping of images and accompanying text from reputable RS-related sources, and (2) generation of five high-quality, scientifically grounded synthetic captions for each image using carefully crafted prompts that leverage the advanced vision-language capabilities of GPT-4o. Our extensive experiments, including fine-tuning of CLIP and BLIP2 models, demonstrate that GAIA significantly improves performance on RS image classification, cross-modal retrieval and image captioning tasks.

arxiv情報

著者 Angelos Zavras,Dimitrios Michail,Xiao Xiang Zhu,Begüm Demir,Ioannis Papoutsis
発行日 2025-02-13 18:52:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク