Exploring the Potential of Multi-Modal AI for Driving Hazard Prediction

要約

この論文では、ドライバーが車の運転中に遭遇する可能性のある危険を予測する問題について取り上げます。
私たちはこれを、車のドライブレコーダーで捉えた単一の入力画像を使用して、差し迫った事故を予測するタスクとして定式化します。
計算シミュレーションやビデオからの異常検出に依存する既存の運転危険予測アプローチとは異なり、この研究は静止画像からの高度な推論に焦点を当てています。
この問題は、不確実な観察に基づいて将来の出来事を予測し推論する必要があり、これは視覚的誘拐的推論に該当します。
この十分に研究されていない分野の研究を可能にするために、DHPR (運転危険予測と推論) データセットという名前の新しいデータセットが作成されます。
データセットは街路シーンの 15K ドライブレコーダー画像で構成されており、各画像は車の速度、仮説上の危険の説明、シーン内に存在する視覚的エンティティを含むタプルに関連付けられています。
これらには人間のアノテーターによって注釈が付けられ、危険な場面を特定し、数秒後に発生する可能性のある事故の説明が提供されます。
私たちはいくつかのベースライン手法を提示し、データセットでのパフォーマンスを評価し、残りの問題を特定し、将来の方向性について議論します。
この研究は、新しい問題定式化とデータセットを導入することでこの分野に貢献し、研究者が運転危険予測におけるマルチモーダル AI の可能性を探ることを可能にします。

要約(オリジナル)

This paper addresses the problem of predicting hazards that drivers may encounter while driving a car. We formulate it as a task of anticipating impending accidents using a single input image captured by car dashcams. Unlike existing approaches to driving hazard prediction that rely on computational simulations or anomaly detection from videos, this study focuses on high-level inference from static images. The problem needs predicting and reasoning about future events based on uncertain observations, which falls under visual abductive reasoning. To enable research in this understudied area, a new dataset named the DHPR (Driving Hazard Prediction and Reasoning) dataset is created. The dataset consists of 15K dashcam images of street scenes, and each image is associated with a tuple containing car speed, a hypothesized hazard description, and visual entities present in the scene. These are annotated by human annotators, who identify risky scenes and provide descriptions of potential accidents that could occur a few seconds later. We present several baseline methods and evaluate their performance on our dataset, identifying remaining issues and discussing future directions. This study contributes to the field by introducing a novel problem formulation and dataset, enabling researchers to explore the potential of multi-modal AI for driving hazard prediction.

arxiv情報

著者 Korawat Charoenpitaks,Van-Quang Nguyen,Masanori Suganuma,Masahiro Takahashi,Ryoma Niihara,Takayuki Okatani
発行日 2024-07-01 09:29:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク