要約
強力な全天候型地球観測ツールとして、合成開口レーダー(SAR)リモートセンシングにより、重要な軍事偵察、海上監視、インフラストラクチャの監視が可能になります。
ビジョン言語モデル(VLM)は、自然言語の処理と画像の理解において顕著な進歩を遂げていますが、ドメインの専門知識が不十分なため、プロフェッショナルドメインではそのアプリケーションが限られたままです。
このペーパーでは、約200万の高品質の画像テキストペアを含むSarchat-2Mという名前のSAR画像の最初の大規模なマルチモーダルダイアログデータセットを革新的に提案し、詳細なターゲット注釈を備えた多様なシナリオを網羅しています。
このデータセットは、視覚的理解やオブジェクト検出タスクなどのいくつかの重要なタスクをサポートするだけでなく、独自の革新的な側面も持っています。この研究は、SARドメインの視覚言語データセットとベンチマークを開発し、SAR画像解釈のVLMS機能を可能にし、評価します。
これは、さまざまなリモートセンシング垂直ドメインでマルチモーダルデータセットを構築するためのパラダイムフレームワークを提供します。
16の主流VLMでの実験を通じて、データセットの有効性が完全に検証されました。
このプロジェクトは、https://github.com/jimmyma99/sarchatでリリースされます。
要約(オリジナル)
As a powerful all-weather Earth observation tool, synthetic aperture radar (SAR) remote sensing enables critical military reconnaissance, maritime surveillance, and infrastructure monitoring. Although Vision language models (VLMs) have made remarkable progress in natural language processing and image understanding, their applications remain limited in professional domains due to insufficient domain expertise. This paper innovatively proposes the first large-scale multimodal dialogue dataset for SAR images, named SARChat-2M, which contains approximately 2 million high-quality image-text pairs, encompasses diverse scenarios with detailed target annotations. This dataset not only supports several key tasks such as visual understanding and object detection tasks, but also has unique innovative aspects: this study develop a visual-language dataset and benchmark for the SAR domain, enabling and evaluating VLMs’ capabilities in SAR image interpretation, which provides a paradigmatic framework for constructing multimodal datasets across various remote sensing vertical domains. Through experiments on 16 mainstream VLMs, the effectiveness of the dataset has been fully verified. The project will be released at https://github.com/JimmyMa99/SARChat.
arxiv情報
著者 | Zhiming Ma,Xiayang Xiao,Sihao Dong,Peidong Wang,HaiPeng Wang,Qingyun Pan |
発行日 | 2025-02-13 17:11:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google