STSBench: A Spatio-temporal Scenario Benchmark for Multi-modal Large Language Models in Autonomous Driving

要約

自律運転のためのビジョン言語モデル(VLMS)の全体的な理解をベンチマークするシナリオベースのフレームワークであるStsbenchを紹介します。
このフレームワークは、グラウンドトゥルースアノテーションを使用して、あらゆるデータセットから事前に定義されたトラフィックシナリオを自動的に採掘し、効率的な人間の検証のための直感的なユーザーインターフェイスを提供し、モデル評価のために複数選択の質問を生成します。
Nuscenes Datasetに適用されると、包括的な3D認識に基づいてVLMの時空間的推論能力を評価する最初のベンチマークであるStsnuを提示します。
既存のベンチマークは、通常、単一の視点からの画像またはビデオの既製または微調整されたVLMを対象とし、オブジェクト認識、密なキャプション、リスク評価、シーンの理解などのセマンティックタスクに焦点を当てます。
対照的に、STSNUは、マルチビューカメラまたはLIDARのビデオで動作するエンドツーエンドの運転のために、ドライビングエキスパートVLMSを評価します。
自律車両の重要な能力である交通参加者間のエゴ車の行動と複雑な相互作用の両方について推論する能力を具体的に評価します。
ベンチマークには、複数のビューとフレームにまたがる43の多様なシナリオがあり、その結果、971人の人間が検証した多肢選択式の質問があります。
徹底的な評価は、複雑な環境での基本的な交通ダイナミクスについて推論する既存のモデルの能力における重要な欠点を明らかにします。
これらの調査結果は、時空間の推論を明示的にモデル化する建築的進歩の緊急の必要性を強調しています。
STSBenchは、時空間評価のコアギャップに対処することにより、自律運転のために、より堅牢で説明可能なVLMの開発を可能にします。

要約(オリジナル)

We introduce STSBench, a scenario-based framework to benchmark the holistic understanding of vision-language models (VLMs) for autonomous driving. The framework automatically mines pre-defined traffic scenarios from any dataset using ground-truth annotations, provides an intuitive user interface for efficient human verification, and generates multiple-choice questions for model evaluation. Applied to the NuScenes dataset, we present STSnu, the first benchmark that evaluates the spatio-temporal reasoning capabilities of VLMs based on comprehensive 3D perception. Existing benchmarks typically target off-the-shelf or fine-tuned VLMs for images or videos from a single viewpoint and focus on semantic tasks such as object recognition, dense captioning, risk assessment, or scene understanding. In contrast, STSnu evaluates driving expert VLMs for end-to-end driving, operating on videos from multi-view cameras or LiDAR. It specifically assesses their ability to reason about both ego-vehicle actions and complex interactions among traffic participants, a crucial capability for autonomous vehicles. The benchmark features 43 diverse scenarios spanning multiple views and frames, resulting in 971 human-verified multiple-choice questions. A thorough evaluation uncovers critical shortcomings in existing models’ ability to reason about fundamental traffic dynamics in complex environments. These findings highlight the urgent need for architectural advances that explicitly model spatio-temporal reasoning. By addressing a core gap in spatio-temporal evaluation, STSBench enables the development of more robust and explainable VLMs for autonomous driving.

arxiv情報

著者 Christian Fruhwirth-Reisinger,Dušan Malić,Wei Lin,David Schinagl,Samuel Schulter,Horst Possegger
発行日 2025-06-06 16:25:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク