要約
リモートセンシング画像キャプション(RSIC)は、クロスモーダルフィールドブリッジングビジョンと言語であり、リモートセンシング画像の特徴とシーンの自然言語の説明を自動的に生成することを目的としています。
洗練された方法とトレーニングビジョン言語モデル(VLMS)のための大規模なデータセットの開発における大幅な進歩にもかかわらず、2つの重要な課題は続きます。英語以外の記述データセットの希少性と、モデルの多言語能力評価の欠如です。
これらの制限は、特に大規模なVLMの時代において、RSICの進捗と実際の展開を根本的に妨げます。
これらの課題に対処するために、このペーパーでは、この分野へのいくつかの重要な貢献を示しています。
まず、BRSIC(バイリンガルリモートセンシング画像キャプション)を導入および分析します。これは、3つの確立された英語RSICデータセットを中国の説明で濃縮し、68,170のバイリンガルキャプションと組み合わせた13,634の画像を濃縮します。
この基盤の上に構築された私たちは、評価プロトコルにおける一般的な矛盾に対処する体系的な評価フレームワークを開発し、BRSICの標準化された再トレーニング手順を通じてモデルパフォーマンスの厳密な評価を可能にします。
さらに、ゼロショット推論、監視付き微調整、多言語トレーニングなど、複数のパラダイムにわたって能力を調べる、最先端の8つの大規模視覚モデル(LVLMS)の広範な実証研究を提示します。
この包括的な評価は、多言語リモートセンシングタスクの処理における現在のLVLMの強みと制限に関する重要な洞察を提供します。
さらに、クロスダタセット転送実験は興味深い発見を明らかにしています。
コードとデータは、https://github.com/mrazhou/brsicで入手できます。
要約(オリジナル)
Remote Sensing Image Captioning (RSIC) is a cross-modal field bridging vision and language, aimed at automatically generating natural language descriptions of features and scenes in remote sensing imagery. Despite significant advances in developing sophisticated methods and large-scale datasets for training vision-language models (VLMs), two critical challenges persist: the scarcity of non-English descriptive datasets and the lack of multilingual capability evaluation for models. These limitations fundamentally impede the progress and practical deployment of RSIC, particularly in the era of large VLMs. To address these challenges, this paper presents several significant contributions to the field. First, we introduce and analyze BRSIC (Bilingual Remote Sensing Image Captioning), a comprehensive bilingual dataset that enriches three established English RSIC datasets with Chinese descriptions, encompassing 13,634 images paired with 68,170 bilingual captions. Building upon this foundation, we develop a systematic evaluation framework that addresses the prevalent inconsistency in evaluation protocols, enabling rigorous assessment of model performance through standardized retraining procedures on BRSIC. Furthermore, we present an extensive empirical study of eight state-of-the-art large vision-language models (LVLMs), examining their capabilities across multiple paradigms including zero-shot inference, supervised fine-tuning, and multi-lingual training. This comprehensive evaluation provides crucial insights into the strengths and limitations of current LVLMs in handling multilingual remote sensing tasks. Additionally, our cross-dataset transfer experiments reveal interesting findings. The code and data will be available at https://github.com/mrazhou/BRSIC.
arxiv情報
著者 | Qing Zhou,Tao Yang,Junyu Gao,Weiping Ni,Junzheng Wu,Qi Wang |
発行日 | 2025-03-06 16:31:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google