GeoLLaVA: Efficient Fine-Tuned Vision-Language Models for Temporal Change Detection in Remote Sensing

要約

地理的景観の時間的変化を検出することは、環境モニタリングや都市計画などのアプリケーションにとって重要です。
リモート センシング データは豊富にありますが、既存のビジョン言語モデル (VLM) では時間的ダイナミクスを効果的に捉えることができないことがよくあります。
この論文では、ビデオ フレーム ペアの注釈付きデータセットを導入して、時間の経過とともに進化する地理的パターンを追跡することで、これらの制限に対処します。
低ランク適応 (LoRA)、量子化 LoRA (QLoRA)、Video-LLaVA や LLaVA-NeXT-Video などのモデルのモデル プルーニングなどの微調整技術を使用して、リモート センシングの時間的変化を処理する際の VLM パフォーマンスを大幅に向上させます。
結果は大幅な改善を示し、最高のパフォーマンスでは BERT スコア 0.864、ROUGE-1 スコア 0.576 を達成し、土地利用の変化を記述する際の優れた精度を実証しました。

要約(オリジナル)

Detecting temporal changes in geographical landscapes is critical for applications like environmental monitoring and urban planning. While remote sensing data is abundant, existing vision-language models (VLMs) often fail to capture temporal dynamics effectively. This paper addresses these limitations by introducing an annotated dataset of video frame pairs to track evolving geographical patterns over time. Using fine-tuning techniques like Low-Rank Adaptation (LoRA), quantized LoRA (QLoRA), and model pruning on models such as Video-LLaVA and LLaVA-NeXT-Video, we significantly enhance VLM performance in processing remote sensing temporal changes. Results show significant improvements, with the best performance achieving a BERT score of 0.864 and ROUGE-1 score of 0.576, demonstrating superior accuracy in describing land-use transformations.

arxiv情報

著者 Hosam Elgendy,Ahmed Sharshar,Ahmed Aboeitta,Yasser Ashraf,Mohsen Guizani
発行日 2024-10-25 13:26:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク