ScVLM: Enhancing Vision-Language Model for Safety-Critical Event Understanding


衝突、タイヤ衝突、衝突寸前などの交通安全上重要なイベント (SCE) を正確に特定、理解、説明することは、先進運転支援システム、自動運転システム、交通安全にとって非常に重要です。
SCE はまれな出来事であるため、ほとんどの一般視覚言語モデル (VLM) は、SCE ビデオとナラティブをリンクするために十分にトレーニングされておらず、幻覚や主要な安全特性の欠落につながる可能性があります。
ここでは、SCE の重症度や種類を分類し、SCE の説明を生成するために、教師あり対照学習技術を統合する新しいハイブリッド方法論である ScVLM を紹介します。
このアプローチでは分類を利用して、VLM の運転ビデオの理解を強化し、イベントの説明の合理性を向上させます。
提案されたアプローチは、ビデオと SCE 注釈を備えた公的にアクセス可能な最大の運転データセットである第 2 回戦略的高速道路研究プログラムの自然主義的運転研究データセットからの 8,600 人を超える SCE によってトレーニングされ、評価されています。
この結果は、文脈的に正確なイベント記述を生成し、VLM 幻覚を軽減する点で、提案されたアプローチの優位性を示しています。
コードは で入手できます。


Accurately identifying, understanding and describing traffic safety-critical events (SCEs), including crashes, tire strikes, and near-crashes, is crucial for advanced driver assistance systems, automated driving systems, and traffic safety. As SCEs are rare events, most general vision-language models (VLMs) have not been trained sufficiently to link SCE videos and narratives, which could lead to hallucinations and missing key safety characteristics. Here, we introduce ScVLM, a novel hybrid methodology that integrates supervised and contrastive learning techniques to classify the severity and types of SCEs, as well as to generate narrative descriptions of SCEs. This approach utilizes classification to enhance VLMs’ comprehension of driving videos and improve the rationality of event descriptions. The proposed approach is trained on and evaluated by more than 8,600 SCEs from the Second Strategic Highway Research Program Naturalistic Driving Study dataset, the largest publicly accessible driving dataset with videos and SCE annotations. The results demonstrate the superiority of the proposed approach in generating contextually accurate event descriptions and mitigating VLM hallucinations. The code will be available at


著者 Liang Shi,Boyu Jiang,Tong Zeng,Feng Guo
発行日 2025-01-13 16:27:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV パーマリンク