要約
視覚言語モデル (VLM) の最近の進歩により、自動運転への使用、特に自然言語を通じて解釈可能な運転決定を生成することへの関心が高まっています。
しかし、VLM が本質的に、視覚的に根拠があり、信頼性が高く、解釈可能な運転説明を提供するという仮定は、ほとんど検討されていないままです。
このギャップに対処するために、19,200 フレーム、20,498 の質問と回答のペア、3 つの質問タイプ、4 つの主流の運転タスクを含む 17 の設定 (クリーン、破損、およびテキストのみの入力) にわたる VLM の信頼性を評価するように設計されたベンチマーク データセットである DriveBench を導入します。
、合計 12 個の人気のある VLM です。
私たちの調査結果は、特に視覚入力が劣化したり欠落したりした場合、VLM は真の視覚的根拠ではなく、一般知識やテキストの手がかりに由来するもっともらしい応答を生成することが多いことを明らかにしています。
この動作は、データセットの不均衡と不十分な評価指標によって隠蔽されており、自動運転などの安全性が重要なシナリオにおいて重大なリスクを引き起こします。
さらに、VLM はマルチモーダル推論に苦労し、入力破損に対する感度が高くなり、パフォーマンスの不一致につながることが観察されました。
これらの課題に対処するために、私たちは、堅牢な視覚的根拠とマルチモーダルな理解を優先する、洗練された評価指標を提案します。
さらに、VLM の信頼性を高めるために汚職に対する VLM の認識を活用する可能性を強調し、現実世界の自動運転の状況において、より信頼性が高く解釈可能な意思決定システムを開発するためのロードマップを提供します。
ベンチマーク ツールキットは一般にアクセスできます。
要約(オリジナル)
Recent advancements in Vision-Language Models (VLMs) have sparked interest in their use for autonomous driving, particularly in generating interpretable driving decisions through natural language. However, the assumption that VLMs inherently provide visually grounded, reliable, and interpretable explanations for driving remains largely unexamined. To address this gap, we introduce DriveBench, a benchmark dataset designed to evaluate VLM reliability across 17 settings (clean, corrupted, and text-only inputs), encompassing 19,200 frames, 20,498 question-answer pairs, three question types, four mainstream driving tasks, and a total of 12 popular VLMs. Our findings reveal that VLMs often generate plausible responses derived from general knowledge or textual cues rather than true visual grounding, especially under degraded or missing visual inputs. This behavior, concealed by dataset imbalances and insufficient evaluation metrics, poses significant risks in safety-critical scenarios like autonomous driving. We further observe that VLMs struggle with multi-modal reasoning and display heightened sensitivity to input corruptions, leading to inconsistencies in performance. To address these challenges, we propose refined evaluation metrics that prioritize robust visual grounding and multi-modal understanding. Additionally, we highlight the potential of leveraging VLMs’ awareness of corruptions to enhance their reliability, offering a roadmap for developing more trustworthy and interpretable decision-making systems in real-world autonomous driving contexts. The benchmark toolkit is publicly accessible.
arxiv情報
著者 | Shaoyuan Xie,Lingdong Kong,Yuhao Dong,Chonghao Sima,Wenwei Zhang,Qi Alfred Chen,Ziwei Liu,Liang Pan |
発行日 | 2025-01-07 18:59:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google