RGB-Th-Bench: A Dense benchmark for Visual-Thermal Understanding of Vision Language Models

要約

RGB-Th-Benchは、RGBサーマル画像ペアを理解するための視覚言語モデル(VLM)の能力を評価するために設計された最初のベンチマークです。
VLMは視覚的推論とマルチモーダル理解において顕著な進歩を示していますが、その評価は主にRGBベースのベンチマークに限定されており、赤外線視力タスクの能力を評価する際に重要なギャップが残っています。
既存の可視化されたフラードデータセットは、厳密なモデル評価に必要なタスク固有のものであるか、高品質の注釈がないことです。
これらの制限に対処するために、RGB-Th-Benchは、14の異なるスキル次元をカバーする包括的な評価フレームワークを提供し、合計1,600人以上の専門家が解決したYES/NOの質問を提供します。
ベンチマークは、2つの精度メトリックを採用しています。標準の質問レベルの精度とより厳しいスキルレベルの精度で、各スキルディメンション内の複数の質問にわたってモデルの堅牢性を評価します。
この設計により、敵対的および幻覚反応に対する回復力を含むモデルパフォーマンスの徹底的な評価が保証されます。
19の最先端のVLMについて広範な評価を実施し、RGBサーマーの理解における重要なパフォーマンスギャップを明らかにしています。
私たちの結果は、最も強力なモデルでさえ、RGBベースの機能によってパフォーマンスが強く制約されているため、熱画像の理解と格闘していることが示されています。
さらに、事前トレーニングにおける大規模なアプリケーション固有で専門家に発表された熱キャプションペアデータセットの欠如は、観察されたパフォーマンスギャップの重要な理由です。
RGB-Th-Benchは、可視画像の理解とサーマルイメージの理解のギャップを埋めるために、マルチモーダル学習のさらなる進歩の緊急の必要性を強調しています。
データセットはこのリンクから利用でき、評価コードも公開されます。

要約(オリジナル)

We introduce RGB-Th-Bench, the first benchmark designed to evaluate the ability of Vision-Language Models (VLMs) to comprehend RGB-Thermal image pairs. While VLMs have demonstrated remarkable progress in visual reasoning and multimodal understanding, their evaluation has been predominantly limited to RGB-based benchmarks, leaving a critical gap in assessing their capabilities in infrared vision tasks. Existing visible-infrared datasets are either task-specific or lack high-quality annotations necessary for rigorous model evaluation. To address these limitations, RGB-Th-Bench provides a comprehensive evaluation framework covering 14 distinct skill dimensions, with a total of 1,600+ expert-annotated Yes/No questions. The benchmark employs two accuracy metrics: a standard question-level accuracy and a stricter skill-level accuracy, which evaluates model robustness across multiple questions within each skill dimension. This design ensures a thorough assessment of model performance, including resilience to adversarial and hallucinated responses. We conduct extensive evaluations on 19 state-of-the-art VLMs, revealing significant performance gaps in RGB-Thermal understanding. Our results show that even the strongest models struggle with thermal image comprehension, with performance heavily constrained by their RGB-based capabilities. Additionally, the lack of large-scale application-specific and expert-annotated thermal-caption-pair datasets in pre-training is an important reason of the observed performance gap. RGB-Th-Bench highlights the urgent need for further advancements in multimodal learning to bridge the gap between visible and thermal image understanding. The dataset is available through this link, and the evaluation code will also be made publicly available.

arxiv情報

著者 Mehdi Moshtaghi,Siavash H. Khajavi,Joni Pajarinen
発行日 2025-03-25 13:43:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク