AccidentBlip2: Accident Detection With Multi-View MotionBlip2

要約

マルチモーダル大規模言語モデル (MLLM) は、マルチモーダル推論の多くの分野で優れた機能を示しています。
したがって、マルチモーダル大規模言語モデルの推論能力を、複雑な交通環境における環境記述とシーンの理解に使用します。
本稿では、事故リスクが発生するかどうかをリアルタイムに予測できるマルチモーダル大規模言語モデル AccidentBlip2 を提案します。
私たちのアプローチには、6 ビュー サラウンド ビュー グラフの時間シーンに基づく特徴抽出と、ビジョン トランスフォーマーを介した時間ブリップ フレームワークを使用した時間推論が含まれます。
次に、生成された一時トークンを MLLM に入力して推論し、事故が発生するかどうかを判断します。
AccidentBlip2 は BEV 画像や LiDAR に依存しないため、推論パラメータの数と MLLM の推論コストを大幅に削減でき、トレーニング中に大きなトレーニング オーバーヘッドが発生することもありません。
AccidentBlip2 は、DeepAccident データセット上の既存のソリューションよりも優れたパフォーマンスを発揮し、エンドツーエンドの自動運転事故予測のためのリファレンス ソリューションも提供できます。

要約(オリジナル)

Multimodal Large Language Models (MLLMs) have shown outstanding capabilities in many areas of multimodal reasoning. Therefore, we use the reasoning ability of Multimodal Large Language Models for environment description and scene understanding in complex transportation environments. In this paper, we propose AccidentBlip2, a multimodal large language model that can predict in real time whether an accident risk will occur. Our approach involves feature extraction based on the temporal scene of the six-view surround view graphs and temporal inference using the temporal blip framework through the vision transformer. We then input the generated temporal token into the MLLMs for inference to determine whether an accident will occur or not. Since AccidentBlip2 does not rely on any BEV images and LiDAR, the number of inference parameters and the inference cost of MLLMs can be significantly reduced, and it also does not incur a large training overhead during training. AccidentBlip2 outperforms existing solutions on the DeepAccident dataset and can also provide a reference solution for end-to-end automated driving accident prediction.

arxiv情報

著者 Yihua Shao,Hongyi Cai,Wenxin Long,Weiyi Lang,Zhe Wang,Haoran Wu,Yan Wang,Yang Yang,Zhen Lei
発行日 2024-04-18 12:54:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク