GPT-4V Takes the Wheel: Promises and Challenges for Pedestrian Behavior Prediction

要約

歩行者の行動を予測することは、自動運転車の安全性と信頼性を確保する鍵となります。
ディープラーニング手法は、注釈付きのビデオ フレーム シーケンスから学習することで有望ですが、正確な予測に不可欠な歩行者と交通間の動的な相互作用を完全には把握できないことがよくあります。
これらのモデルには、微妙な常識的推論も欠けています。
さらに、これらのモデルのデータセットに手動でアノテーションを付けるのは費用がかかり、新しい状況に適応するのが困難です。
ビジョン言語モデル (VLM) の出現により、その高度な視覚的および因果的推論スキルのおかげで、これらの問題に対する有望な代替手段が導入されました。
私たちの知る限り、この研究は、自動運転のための歩行者行動予測の文脈において、VLM の定量的および定性的評価の両方を実施した最初の研究です。
私たちは、公的に利用可能な歩行者データセットである JAAD と WiDEVIEW で GPT-4V(ision) を評価します。
私たちの定量的分析は、現在および将来のフレームで歩行者の行動を予測する GPT-4V の機能に焦点を当てています。
このモデルは、ゼロショット方式で 57% の精度を達成しました。これは素晴らしいことではありますが、横断歩道の動作の予測においては、最先端のドメイン固有モデル (70%) にはまだ及んでいません。
定性的には、GPT-4V は、複雑な交通シナリオを処理および解釈し、さまざまな歩行者の行動を区別し、グループを検出および分析する優れた能力を示しています。
しかし、小さな歩行者の検出や歩行者と自車両との相対運動の評価が難しいなどの課題に直面しています。

要約(オリジナル)

Predicting pedestrian behavior is the key to ensure safety and reliability of autonomous vehicles. While deep learning methods have been promising by learning from annotated video frame sequences, they often fail to fully grasp the dynamic interactions between pedestrians and traffic, crucial for accurate predictions. These models also lack nuanced common sense reasoning. Moreover, the manual annotation of datasets for these models is expensive and challenging to adapt to new situations. The advent of Vision Language Models (VLMs) introduces promising alternatives to these issues, thanks to their advanced visual and causal reasoning skills. To our knowledge, this research is the first to conduct both quantitative and qualitative evaluations of VLMs in the context of pedestrian behavior prediction for autonomous driving. We evaluate GPT-4V(ision) on publicly available pedestrian datasets: JAAD and WiDEVIEW. Our quantitative analysis focuses on GPT-4V’s ability to predict pedestrian behavior in current and future frames. The model achieves a 57% accuracy in a zero-shot manner, which, while impressive, is still behind the state-of-the-art domain-specific models (70%) in predicting pedestrian crossing actions. Qualitatively, GPT-4V shows an impressive ability to process and interpret complex traffic scenarios, differentiate between various pedestrian behaviors, and detect and analyze groups. However, it faces challenges, such as difficulty in detecting smaller pedestrians and assessing the relative motion between pedestrians and the ego vehicle.

arxiv情報

著者 Jia Huang,Peng Jiang,Alvika Gautam,Srikanth Saripalli
発行日 2024-01-25 20:55:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク