要約
大規模マルチモーダル モデル (LMM) は、視覚的命令チューニングを使用して、自然画像領域で有望なパフォーマンスを示しています。
しかし、これらの LMM は、画像や領域のグラウンディング、分類などのタスクのためにリモート センシング画像の内容を記述するのに苦労しています。最近では、GeoChat が RS 画像の内容を記述することに努めています。
GeoChat はさまざまな RS タスクに対して有望なパフォーマンスを達成しますが、重要な RS タスクであるバイタイム RS 画像間の変化を記述するのに苦労しています。
これには、バイテンポラル RS 画像間の変化を記述できる LMM の開発が必要です。
ただし、LMM の調整に利用できるデータセットが不十分です。
これを達成するために、LMM を微調整し、RS 画像により良い変更記述を提供するために利用できる変更記述命令データセットを導入します。
さらに、わずかな変更を加えた LLaVA-1.5 モデルが、変更記述命令データセットで微調整でき、有利に優れたパフォーマンスを達成できることを示します。
要約(オリジナル)
Large multimodal models (LMMs) have shown encouraging performance in the natural image domain using visual instruction tuning. However, these LMMs struggle to describe the content of remote sensing images for tasks such as image or region grounding, classification, etc. Recently, GeoChat make an effort to describe the contents of the RS images. Although, GeoChat achieves promising performance for various RS tasks, it struggles to describe the changes between bi-temporal RS images which is a key RS task. This necessitates the development of an LMM that can describe the changes between the bi-temporal RS images. However, there is insufficiency of datasets that can be utilized to tune LMMs. In order to achieve this, we introduce a change description instruction dataset that can be utilized to finetune an LMM and provide better change descriptions for RS images. Furthermore, we show that the LLaVA-1.5 model, with slight modifications, can be finetuned on the change description instruction dataset and achieve favorably better performance.
arxiv情報
著者 | Mubashir Noman,Noor Ahsan,Muzammal Naseer,Hisham Cholakkal,Rao Muhammad Anwer,Salman Khan,Fahad Shahbaz Khan |
発行日 | 2024-09-24 17:31:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google