要約
一般的な大規模視覚言語モデル (VLM) は急速に開発されていますが、リモート センシング (RS) 領域では依然としてパフォーマンスが不十分です。これは、RS 画像の独特で特殊な性質と、現在の VLM の空間認識が比較的限られているためです。
既存のリモート センシング固有の視覚言語モデル (RSVLM) には、主に大規模で高品質な RS 視覚言語データセットが不足しているため、依然として改善の余地がかなりあります。
私たちは、140 万の画像とキャプションのペアを含む、RS 画像用の大規模な高品質で詳細なキャプションである HqDC-1.4M を構築しました。これにより、RSVLM による RS 画像の理解が強化されるだけでなく、位置特定などのモデルの空間認識能力も大幅に向上します。
これにより、RSVLM の有用性が高まります。
さらに、RSVLM で避けられない「幻覚」問題に対処するために、RSVLM の自己認識能力を強化することを目的とした最初のデータセットである RSSA を開発しました。
RSSA は、典型的な RS 視覚的質問応答タスクにさまざまな答えられない質問を組み込むことで、真実性を効果的に向上させ、モデルの出力の幻覚を軽減し、それによって RSVLM の誠実性を強化します。
これらのデータセットに基づいて、私たちは H2RSVLM (便利で誠実なリモート センシング ビジョン言語モデル) を提案しました。
H2RSVLM は、複数の RS 公開データセットで優れたパフォーマンスを達成しており、答えられない質問を認識して回答を拒否することができ、誤った世代を効果的に軽減します。
コード、データ、モデルの重みは https://github.com/opendatalab/H2RSVLM でリリースされます。
要約(オリジナル)
The generic large Vision-Language Models (VLMs) is rapidly developing, but still perform poorly in Remote Sensing (RS) domain, which is due to the unique and specialized nature of RS imagery and the comparatively limited spatial perception of current VLMs. Existing Remote Sensing specific Vision Language Models (RSVLMs) still have considerable potential for improvement, primarily owing to the lack of large-scale, high-quality RS vision-language datasets. We constructed HqDC-1.4M, the large scale High quality and Detailed Captions for RS images, containing 1.4 million image-caption pairs, which not only enhance the RSVLM’s understanding of RS images but also significantly improve the model’s spatial perception abilities, such as localization and counting, thereby increasing the helpfulness of the RSVLM. Moreover, to address the inevitable ‘hallucination’ problem in RSVLM, we developed RSSA, the first dataset aimed at enhancing the Self-Awareness capability of RSVLMs. By incorporating a variety of unanswerable questions into typical RS visual question-answering tasks, RSSA effectively improves the truthfulness and reduces the hallucinations of the model’s outputs, thereby enhancing the honesty of the RSVLM. Based on these datasets, we proposed the H2RSVLM, the Helpful and Honest Remote Sensing Vision Language Model. H2RSVLM has achieved outstanding performance on multiple RS public datasets and is capable of recognizing and refusing to answer the unanswerable questions, effectively mitigating the incorrect generations. We will release the code, data and model weights at https://github.com/opendatalab/H2RSVLM .
arxiv情報
著者 | Chao Pang,Jiang Wu,Jiayu Li,Yi Liu,Jiaxing Sun,Weijia Li,Xingxing Weng,Shuai Wang,Litong Feng,Gui-Song Xia,Conghui He |
発行日 | 2024-03-29 14:50:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google