要約
マルチモーダル大規模言語モデル(MLLM)は、自然画像領域における視覚および視覚言語タスクにおいて目覚ましい成功を収めている。自然画像とリモートセンシング(RS)画像は大きく異なるため、RS領域におけるMLLMの開発はまだ始まったばかりである。このギャップを埋めるために、本論文では、様々なマルチセンサRS解釈タスクを統一的に統合し、普遍的なRS画像理解のための先駆的なMLLMであるEarthGPTを提案する。EarthGPTでは、視覚を強調した知覚メカニズム、クロスモーダルな相互理解アプローチ、およびRS領域におけるマルチセンサマルチタスクのための統一的な命令調整法を含む3つの主要な技術が開発されている。さらに重要な点として、既存の34の多様なRSデータセットに基づき、光学、合成開口レーダ(SAR)、赤外線などのマルチセンサ画像を含む1M以上の画像-テキストペアからなる、大規模なマルチセンサマルチモーダルRS命令追従を特徴とするMMRS-1Mと名付けられたデータセットを構築した。MMRS-1Mデータセットは、RS専門知識に対するMLLMの欠点に対処し、RS領域におけるMLLMの開発を刺激する。広範な実験が行われ、他の専門家モデルやMLLMと比較して、EarthGPTが様々なRS視覚解釈タスクにおいて優れた性能を示すことが実証され、提案されたEarthGPTの有効性が証明され、オープンセット推論タスクのための汎用的なパラダイムが提供される。
要約(オリジナル)
Multi-modal large language models (MLLMs) have demonstrated remarkable success in vision and visual-language tasks within the natural image domain. Owing to the significant diversities between the natural and remote sensing (RS) images, the development of MLLMs in the RS domain is still in the infant stage. To fill the gap, a pioneer MLLM named EarthGPT integrating various multi-sensor RS interpretation tasks uniformly is proposed in this paper for universal RS image comprehension. In EarthGPT, three key techniques are developed including a visual-enhanced perception mechanism, a cross-modal mutual comprehension approach, and a unified instruction tuning method for multi-sensor multi-task in the RS domain. More importantly, a dataset named MMRS-1M featuring large-scale multi-sensor multi-modal RS instruction-following is constructed, comprising over 1M image-text pairs based on 34 existing diverse RS datasets and including multi-sensor images such as optical, synthetic aperture radar (SAR), and infrared. The MMRS-1M dataset addresses the drawback of MLLMs on RS expert knowledge and stimulates the development of MLLMs in the RS domain. Extensive experiments are conducted, demonstrating the EarthGPT’s superior performance in various RS visual interpretation tasks compared with the other specialist models and MLLMs, proving the effectiveness of the proposed EarthGPT and offering a versatile paradigm for open-set reasoning tasks.
arxiv情報
著者 | Wei Zhang,Miaoxin Cai,Tong Zhang,Yin Zhuang,Xuerui Mao |
発行日 | 2024-02-05 14:24:59+00:00 |
arxivサイト | arxiv_id(pdf) |