要約
歩行者の行動を予測することは、インテリジェントな運転システムにとって重要なタスクです。
正確な予測には、歩行者の行動に影響を与える可能性のあるさまざまなコンテキスト要素を深く理解する必要があります。
この課題に対処するために、さまざまなデータモダリティに依存して、自我中心の視点から歩行者の将来の軌跡と横断行動を予測する新しいフレームワークを提案します。
具体的には、モデルはクロスモーダル Transformer アーキテクチャを利用して、異なるデータ型間の依存関係をキャプチャします。
Transformer の出力は、セマンティックな注意深い対話モジュールによって生成される、歩行者と自車両のダイナミクスに基づいて調整された、歩行者と他の交通エージェント間の対話の表現で拡張されます。
最後に、コンテキスト エンコーディングは、ゲート共有ネットワークを使用してマルチストリーム デコーダ フレームワークに供給されます。
公共の歩行者行動ベンチマークである PIE と JAAD でアルゴリズムを評価し、モデルが軌道と行動予測の最先端をさまざまな指標でそれぞれ最大 22% と 13% 改善することを示します。
私たちのモデルのコンポーネントによってもたらされる利点は、広範なアブレーション研究を通じて調査されています。
要約(オリジナル)
Predicting pedestrian behavior is a crucial task for intelligent driving systems. Accurate predictions require a deep understanding of various contextual elements that potentially impact the way pedestrians behave. To address this challenge, we propose a novel framework that relies on different data modalities to predict future trajectories and crossing actions of pedestrians from an ego-centric perspective. Specifically, our model utilizes a cross-modal Transformer architecture to capture dependencies between different data types. The output of the Transformer is augmented with representations of interactions between pedestrians and other traffic agents conditioned on the pedestrian and ego-vehicle dynamics that are generated via a semantic attentive interaction module. Lastly, the context encodings are fed into a multi-stream decoder framework using a gated-shared network. We evaluate our algorithm on public pedestrian behavior benchmarks, PIE and JAAD, and show that our model improves state-of-the-art in trajectory and action prediction by up to 22% and 13% respectively on various metrics. The advantages brought by components of our model are investigated via extensive ablation studies.
arxiv情報
著者 | Amir Rasouli,Iuliia Kotseruba |
発行日 | 2022-10-14 15:12:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google