EarthGPT: A Universal Multi-modal Large Language Model for Multi-sensor Image Comprehension in Remote Sensing Domain

要約

マルチモーダル大規模言語モデル (MLLM) は、自然画像領域内の視覚および視覚言語タスクにおいて目覚ましい成功を収めていることが実証されています。
自然画像とリモート センシング (RS) 画像の間には大きな多様性があるため、RS 領域における MLLM の開発はまだ初期段階にあります。
このギャップを埋めるために、ユニバーサル RS 画像理解のために、さまざまなマルチセンサー RS 解釈タスクを均一に統合する EarthGPT という先駆的な MLLM がこの論文で提案されています。
EarthGPT では、視覚強化された知覚メカニズム、クロスモーダル相互理解アプローチ、RS ドメインのマルチセンサー マルチタスク用の統合命令調整方法を含む 3 つの主要な技術が開発されています。
さらに重要なことは、大規模なマルチセンサー マルチモーダル RS 命令追跡を特徴とする MMRS-1M という名前のデータセットが構築されているということです。このデータセットは、34 の既存の多様な RS データセットに基づいた 100 万を超える画像とテキストのペアで構成されており、光学、画像などのマルチセンサー画像が含まれています。
合成開口レーダー (SAR)、赤外線。
MMRS-1M データセットは、RS の専門知識に関する MLLM の欠点に対処し、RS ドメインにおける MLLM の開発を刺激します。
広範な実験が行われ、他の専門モデルやMLLMと比較して、さまざまなRS視覚解釈タスクにおけるEarthGPTの優れたパフォーマンスが実証され、提案されたEarthGPTの有効性が証明され、開集合推論タスクに汎用性の高いパラダイムが提供されます。

要約(オリジナル)

Multi-modal large language models (MLLMs) have demonstrated remarkable success in vision and visual-language tasks within the natural image domain. Owing to the significant diversities between the natural and remote sensing (RS) images, the development of MLLMs in the RS domain is still in the infant stage. To fill the gap, a pioneer MLLM named EarthGPT integrating various multi-sensor RS interpretation tasks uniformly is proposed in this paper for universal RS image comprehension. In EarthGPT, three key techniques are developed including a visual-enhanced perception mechanism, a cross-modal mutual comprehension approach, and a unified instruction tuning method for multi-sensor multi-task in the RS domain. More importantly, a dataset named MMRS-1M featuring large-scale multi-sensor multi-modal RS instruction-following is constructed, comprising over 1M image-text pairs based on 34 existing diverse RS datasets and including multi-sensor images such as optical, synthetic aperture radar (SAR), and infrared. The MMRS-1M dataset addresses the drawback of MLLMs on RS expert knowledge and stimulates the development of MLLMs in the RS domain. Extensive experiments are conducted, demonstrating the EarthGPT’s superior performance in various RS visual interpretation tasks compared with the other specialist models and MLLMs, proving the effectiveness of the proposed EarthGPT and offering a versatile paradigm for open-set reasoning tasks.

arxiv情報

著者 Wei Zhang,Miaoxin Cai,Tong Zhang,Yin Zhuang,Xuerui Mao
発行日 2024-03-08 15:36:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク