Learning Pedestrian Actions to Ensure Safe Autonomous Driving

要約

車両と歩行者の相互作用が複雑な都市環境で安全な自動運転を確保するには、自動運転車 (AV) が歩行者の短期的かつ即時の行動をリアルタイムで予測する機能を備えていることが重要です。
近年、自動運転シナリオにおける歩行者の行動を推定する研究のためにさまざまな手法が開発されていますが、歩行者の行動については明確な定義が不足しています。
この研究では、文献のギャップが調査され、歩行者の行動の特徴付けのための分類が提示されます。
さらに、自車両カメラ観測のみを入力として使用する歩行者の行動と軌道予測のために、新しいマルチタスクシーケンスツーシーケンストランスフォーマーエンコーダーデコーダー(TF-ed)アーキテクチャが提案されています。
提案されたアプローチは、アクションと軌道予測のために既存の LSTM エンコーダ デコーダ (LSTM 版) アーキテクチャと比較されます。
両方のモデルのパフォーマンスは、公開されている共同注意自動運転 (JAAD) データセット、CARLA シミュレーション データ、および大学キャンパスで収集されたリアルタイムの自動運転シャトル データに基づいて評価されます。
評価結果は、提案された方法が JAAD テストデータのアクション予測タスクで 81% の精度に達し、LSTM 処理を 7.4% 上回っている一方、LSTM 対応物は 25 フレームの予測シーケンス長の軌跡予測タスクではるかに優れたパフォーマンスを示していることを示しています。

要約(オリジナル)

To ensure safe autonomous driving in urban environments with complex vehicle-pedestrian interactions, it is critical for Autonomous Vehicles (AVs) to have the ability to predict pedestrians’ short-term and immediate actions in real-time. In recent years, various methods have been developed to study estimating pedestrian behaviors for autonomous driving scenarios, but there is a lack of clear definitions for pedestrian behaviors. In this work, the literature gaps are investigated and a taxonomy is presented for pedestrian behavior characterization. Further, a novel multi-task sequence to sequence Transformer encoders-decoders (TF-ed) architecture is proposed for pedestrian action and trajectory prediction using only ego vehicle camera observations as inputs. The proposed approach is compared against an existing LSTM encoders decoders (LSTM-ed) architecture for action and trajectory prediction. The performance of both models is evaluated on the publicly available Joint Attention Autonomous Driving (JAAD) dataset, CARLA simulation data as well as real-time self-driving shuttle data collected on university campus. Evaluation results illustrate that the proposed method reaches an accuracy of 81% on action prediction task on JAAD testing data and outperforms the LSTM-ed by 7.4%, while LSTM counterpart performs much better on trajectory prediction task for a prediction sequence length of 25 frames.

arxiv情報

著者 Jia Huang,Alvika Gautam,Srikanth Saripalli
発行日 2023-05-22 14:03:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク