Fine-Grained Evaluation of Large Vision-Language Models in Autonomous Driving

要約

自律運転(AD)に関するビジョン言語モデル(VLM)の既存のベンチマーク(AD)は、粗粒のタスク内のオープンフォームの視覚質問(QA)を通じて解釈可能性を主に評価します。
この目的のために、$ \ textBf {vladbench} $を紹介します。これは、静的な基礎的知識と要素から動的なオンロード状況の高度な推論に進む密接な形式のQAを特徴とする挑戦的で微調整されたデータセットです。
精巧な$ \ textbf {vladbench} $は、5つの重要なドメインに及びます。トラフィック知識の理解、一般的な要素認識、トラフィックグラフの生成、ターゲット属性の理解、および自我の意思決定と計画。
これらのドメインは、詳細な評価のために11の二次的な側面と29の三次タスクに分解されます。
このベンチマークでの一般的およびドメイン固有の(DS)VLMの徹底的な評価により、ADコンテキストにおけるその強みと重大な制限の両方が明らかになります。
広告理解のために5つのドメイン間の認知と推論の相互作用をさらに活用するために、小規模なVLMから始めて、個々のドメインデータセットでDSモデルをトレーニングします(パブリックソースで1.4m DS QAから収集)。
実験結果は、提案されたベンチマークがADにおけるVLMのより包括的な評価に向けた重要なステップを提供し、より認知的に洗練された推論的なADシステムの開発への道を開くことを示しています。

要約(オリジナル)

Existing benchmarks for Vision-Language Model (VLM) on autonomous driving (AD) primarily assess interpretability through open-form visual question answering (QA) within coarse-grained tasks, which remain insufficient to assess capabilities in complex driving scenarios. To this end, we introduce $\textbf{VLADBench}$, a challenging and fine-grained dataset featuring close-form QAs that progress from static foundational knowledge and elements to advanced reasoning for dynamic on-road situations. The elaborate $\textbf{VLADBench}$ spans 5 key domains: Traffic Knowledge Understanding, General Element Recognition, Traffic Graph Generation, Target Attribute Comprehension, and Ego Decision-Making and Planning. These domains are further broken down into 11 secondary aspects and 29 tertiary tasks for a granular evaluation. A thorough assessment of general and domain-specific (DS) VLMs on this benchmark reveals both their strengths and critical limitations in AD contexts. To further exploit the cognitive and reasoning interactions among the 5 domains for AD understanding, we start from a small-scale VLM and train the DS models on individual domain datasets (collected from 1.4M DS QAs across public sources). The experimental results demonstrate that the proposed benchmark provides a crucial step toward a more comprehensive assessment of VLMs in AD, paving the way for the development of more cognitively sophisticated and reasoning-capable AD systems.

arxiv情報

著者 Yue Li,Meng Tian,Zhenyu Lin,Jiangtong Zhu,Dechang Zhu,Haiqiang Liu,Zining Wang,Yueyi Zhang,Zhiwei Xiong,Xinhai Zhao
発行日 2025-03-27 13:45:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク