CRASH: Crash Recognition and Anticipation System Harnessing with Context-Aware and Temporal Focus Attentions

要約

カメラの映像から周囲の交通機関間の事故を正確かつ迅速に予測することは、自動運転車 (AV) の安全性にとって非常に重要です。
この作業は、交通事故の予測不可能な性質、事故のロングテール分布、交通現場のダイナミクスの複雑さ、および車載カメラの視野が本質的に制限されていることから生じる、大きな課題を提示しています。
これらの課題に対処するために、この研究では、CRASH と呼ばれる AV 用の新しい事故予測フレームワークを導入します。
これは、オブジェクト検出器、特徴抽出器、オブジェクト認識モジュール、コンテキスト認識モジュール、およびマルチレイヤー フュージョンの 5 つのコンポーネントをシームレスに統合します。
具体的には、交通エージェント間の時空間関係を計算することで、複雑で曖昧な環境においてリスクの高いオブジェクトを優先するオブジェクト認識モジュールを開発します。
並行して、高速フーリエ変換 (FFT) を使用してグローバルな視覚情報を時間領域から周波数領域に拡張し、潜在的なオブジェクトのきめの細かい視覚的特徴と交通シーン内のより広範なコンテキストの手がかりを捕捉するコンテキストアウェアも考案されています。
より広範囲の視覚的手がかりを捕捉するために、異なるシーン間の時間的依存関係を動的に計算し、正確かつタイムリーな事故予測のために異なる視覚的特徴間の相関関係を繰り返し更新する多層融合をさらに提案します。
実世界のデータセット (ドライブレコーダー事故データセット (DAD)、自動車事故データセット (CCD)、AnAn 事故検出 (A3D) データセット) で評価された当社のモデルは、平均精度 (AP) や平均値などの重要な評価指標で既存のトップ ベースラインを上回っています。
事故発生までの時間 (mTTA)。
重要なのは、その堅牢性と適応性は、トレーニング データが欠落している、または限られている困難な運転シナリオで特に顕著であり、現実世界の自動運転システムへの応用に大きな可能性を示していることです。

要約(オリジナル)

Accurately and promptly predicting accidents among surrounding traffic agents from camera footage is crucial for the safety of autonomous vehicles (AVs). This task presents substantial challenges stemming from the unpredictable nature of traffic accidents, their long-tail distribution, the intricacies of traffic scene dynamics, and the inherently constrained field of vision of onboard cameras. To address these challenges, this study introduces a novel accident anticipation framework for AVs, termed CRASH. It seamlessly integrates five components: object detector, feature extractor, object-aware module, context-aware module, and multi-layer fusion. Specifically, we develop the object-aware module to prioritize high-risk objects in complex and ambiguous environments by calculating the spatial-temporal relationships between traffic agents. In parallel, the context-aware is also devised to extend global visual information from the temporal to the frequency domain using the Fast Fourier Transform (FFT) and capture fine-grained visual features of potential objects and broader context cues within traffic scenes. To capture a wider range of visual cues, we further propose a multi-layer fusion that dynamically computes the temporal dependencies between different scenes and iteratively updates the correlations between different visual features for accurate and timely accident prediction. Evaluated on real-world datasets–Dashcam Accident Dataset (DAD), Car Crash Dataset (CCD), and AnAn Accident Detection (A3D) datasets–our model surpasses existing top baselines in critical evaluation metrics like Average Precision (AP) and mean Time-To-Accident (mTTA). Importantly, its robustness and adaptability are particularly evident in challenging driving scenarios with missing or limited training data, demonstrating significant potential for application in real-world autonomous driving systems.

arxiv情報

著者 Haicheng Liao,Haoyu Sun,Huanming Shen,Chengyue Wang,Kahou Tam,Chunlin Tian,Li Li,Chengzhong Xu,Zhenning Li
発行日 2024-07-25 04:12:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク