When Large Vision-Language Model Meets Large Remote Sensing Imagery: Coarse-to-Fine Text-Guided Token Pruning

要約

大きなリモートセンシング画像(RSI)の効率的な視覚言語の理解は意味がありますが挑戦的です。
現在の大規模な視覚言語モデル(LVLMS)は通常、限られた事前定義されたグリッドを使用して画像を処理し、ギガピクセルRSIを処理する際に情報の損失をもたらします。
逆に、無制限のグリッドを使用すると、計算コストが大幅に増加します。
計算の複雑さを減らしながら画像の詳細を維持するために、動的画像ピラミッド(DIP)統合を使用したテキスト誘導トークン剪定法を提案します。
私たちの方法は、(i)テキスト認識領域のローカリゼーション機能を活用して重要なビジョントークンを識別する地域フォーカスモジュール(RFM)、および(ii)RFM出力によってガイドされ、大きな画像全体を直接処理することを回避するDIPに基づく粗から洗練された画像タイルの選択と視力トークン剪定戦略を紹介します。
さらに、大規模なRSIでのLVLMSの知覚能力を評価するための既存のベンチマークは、質問の多様性と制約された画像サイズに悩まされています。
LRS-VQAという名前の新しいベンチマークを構築します。これには、最大27,328ピクセルの画像長がある8つのカテゴリに7,333 QAペアが含まれています。
この方法は、同じデータを使用して4つのデータセットで既存の高解像度戦略を上回っています。
さらに、既存のトークン削減方法と比較して、私たちのアプローチは、高解像度の設定でのより高い効率性を示しています。
データセットとコードはhttps://github.com/visionxlab/lrs-vqaにあります。

要約(オリジナル)

Efficient vision-language understanding of large Remote Sensing Images (RSIs) is meaningful but challenging. Current Large Vision-Language Models (LVLMs) typically employ limited pre-defined grids to process images, leading to information loss when handling gigapixel RSIs. Conversely, using unlimited grids significantly increases computational costs. To preserve image details while reducing computational complexity, we propose a text-guided token pruning method with Dynamic Image Pyramid (DIP) integration. Our method introduces: (i) a Region Focus Module (RFM) that leverages text-aware region localization capability to identify critical vision tokens, and (ii) a coarse-to-fine image tile selection and vision token pruning strategy based on DIP, which is guided by RFM outputs and avoids directly processing the entire large imagery. Additionally, existing benchmarks for evaluating LVLMs’ perception ability on large RSI suffer from limited question diversity and constrained image sizes. We construct a new benchmark named LRS-VQA, which contains 7,333 QA pairs across 8 categories, with image length up to 27,328 pixels. Our method outperforms existing high-resolution strategies on four datasets using the same data. Moreover, compared to existing token reduction methods, our approach demonstrates higher efficiency under high-resolution settings. Dataset and code are in https://github.com/VisionXLab/LRS-VQA.

arxiv情報

著者 Junwei Luo,Yingying Zhang,Xue Yang,Kang Wu,Qi Zhu,Lei Liang,Jingdong Chen,Yansheng Li
発行日 2025-03-25 15:05:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク