要約
走行動画による交通事故予測は、事故発生を早期に警告し、安全運転システムの意思決定を支援することを目的としています。
これまでの研究は通常、オブジェクトレベルのコンテキストの時空間相関に焦点を当てていましたが、固有のロングテールデータ分布にうまく適合せず、深刻な環境変化に対して脆弱でした。
この研究では、モデルのトレーニングを容易にするために、視覚的観察とドライバーの注意に関する人間のインスピレーションによるテキストの説明の認知を明示的に活用する認知事故予測 (CAP) 方法を提案します。
特に、テキストの説明は、交通現場の主な状況についての緻密な意味論的説明のガイダンスを提供する一方、ドライバーの注意は、安全運転と密接に関連する重要な領域に焦点を当てる牽引力を提供します。
CAP は、注意深いテキストからビジョンへのシフト融合モジュール、注意深いシーンコンテキスト転送モジュール、およびドライバー注意誘導型事故予測モジュールによって定式化されます。
これらのモジュールの注意メカニズムを活用して、事故予測の中核となる意味論的な手がかりを探索します。
CAP をトレーニングするために、既存の自己収集 DADA-2000 データセット (フレームごとにドライバーの注意力に注釈が付けられている) を拡張し、事故前の視覚的観察に関する事実に基づくテキストの説明をさらに追加します。
さらに、219 万フレームを超える 11,727 件の実際の事故ビデオ (CAP-DATA と呼ばれる) と、ラベル付けされた事実、影響、理由、内観の説明および一時的な事故フレーム ラベルから構成される新しい大規模ベンチマークを構築します。
広範な実験に基づいて、最先端のアプローチと比較して CAP の優位性が検証されています。
コード、CAP-DATA、およびすべての結果は \url{https://github.com/JWFangit/LOTVS-CAP} でリリースされます。
要約(オリジナル)
Traffic accident prediction in driving videos aims to provide an early warning of the accident occurrence, and supports the decision making of safe driving systems. Previous works usually concentrate on the spatial-temporal correlation of object-level context, while they do not fit the inherent long-tailed data distribution well and are vulnerable to severe environmental change. In this work, we propose a Cognitive Accident Prediction (CAP) method that explicitly leverages human-inspired cognition of text description on the visual observation and the driver attention to facilitate model training. In particular, the text description provides a dense semantic description guidance for the primary context of the traffic scene, while the driver attention provides a traction to focus on the critical region closely correlating with safe driving. CAP is formulated by an attentive text-to-vision shift fusion module, an attentive scene context transfer module, and the driver attention guided accident prediction module. We leverage the attention mechanism in these modules to explore the core semantic cues for accident prediction. In order to train CAP, we extend an existing self-collected DADA-2000 dataset (with annotated driver attention for each frame) with further factual text descriptions for the visual observations before the accidents. Besides, we construct a new large-scale benchmark consisting of 11,727 in-the-wild accident videos with over 2.19 million frames (named as CAP-DATA) together with labeled fact-effect-reason-introspection description and temporal accident frame label. Based on extensive experiments, the superiority of CAP is validated compared with state-of-the-art approaches. The code, CAP-DATA, and all results will be released in \url{https://github.com/JWFanggit/LOTVS-CAP}.
arxiv情報
著者 | Jianwu Fang,Lei-Lei Li,Kuan Yang,Zhedong Zheng,Jianru Xue,Tat-Seng Chua |
発行日 | 2023-06-16 13:29:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google