VRSBench: A Versatile Vision-Language Benchmark Dataset for Remote Sensing Image Understanding

要約

リモート センシング画像用の汎用大規模ビジョン言語モデルの開発を促進するために設計された新しいベンチマークを紹介します。
この目標を追求するために、リモートセンシングにおけるいくつかの視覚言語データセットが提案されていますが、既存のデータセットは通常、単一のタスクに合わせて調整されているか、詳細な物体情報が欠如しているか、不十分な品質管理に悩まされています。
これらの改善の機会を探り、VRSBench と呼ばれる、リモート センシング画像理解のための多用途視覚言語ベンチマークを紹介します。
このベンチマークは、人間が検証した 29,614 個の詳細なキャプション、52,472 個のオブジェクト参照、および 123,221 個の質問と回答のペアを含む 29,614 個の画像で構成されています。
これにより、広範囲のリモート センシング画像理解タスクにわたる視覚言語モデルのトレーニングと評価が容易になります。
さらに、画像キャプション、視覚的グラウンディング、視覚的質問応答という 3 つの視覚言語タスクについて、このベンチマークで最先端のモデルを評価しました。
私たちの研究は、リモート センシングの分野における高度な視覚言語モデルの開発に大きく貢献することを目的としています。
データとコードは https://github.com/lx709/VRSBench からアクセスできます。

要約(オリジナル)

We introduce a new benchmark designed to advance the development of general-purpose, large-scale vision-language models for remote sensing images. Although several vision-language datasets in remote sensing have been proposed to pursue this goal, existing datasets are typically tailored to single tasks, lack detailed object information, or suffer from inadequate quality control. Exploring these improvement opportunities, we present a Versatile vision-language Benchmark for Remote Sensing image understanding, termed VRSBench. This benchmark comprises 29,614 images, with 29,614 human-verified detailed captions, 52,472 object references, and 123,221 question-answer pairs. It facilitates the training and evaluation of vision-language models across a broad spectrum of remote sensing image understanding tasks. We further evaluated state-of-the-art models on this benchmark for three vision-language tasks: image captioning, visual grounding, and visual question answering. Our work aims to significantly contribute to the development of advanced vision-language models in the field of remote sensing. The data and code can be accessed at https://github.com/lx709/VRSBench.

arxiv情報

著者 Xiang Li,Jian Ding,Mohamed Elhoseiny
発行日 2024-11-11 17:25:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク