Synthetic Data Generation Framework, Dataset, and Efficient Deep Model for Pedestrian Intention Prediction

要約

自動運転には歩行者の意図予測が重要です。
特に、歩行者が自車両の前を横断しようとしているかどうかを知ることは、安全で快適な操作を実行する上で重要です。
連続画像からそのような意図を予測する正確かつ高速なモデルを作成するのは困難です。
これに寄与する要因は、多様な交差および非交差 (C/NC) シナリオを備えたデータセットが不足していることです。
私たちは、C/NC ビデオ クリップ サンプルで構成される合成データセットをプログラムで生成できる ARCANE というフレームワークを導入することで、この不足に対処しています。
例として、ARCANE を使用して、PedSynth という名前の大規模で多様なデータセットを生成します。
PedSynth が JAAD や PIE などの広く使用されている現実世界のデータセットをどのように補完し、C/NC 予測のためのより正確なモデルを可能にするかを示します。
C/NC 予測モデルのオンボード展開を考慮して、高速でメモリ フットプリントが非常に小さい PedGNN というディープ モデルも提案します。
PedGNN は、一連の歩行者のスケルトンを入力として受け取り、横断の意図を予測する GNN-GRU アーキテクチャに基づいています。

要約(オリジナル)

Pedestrian intention prediction is crucial for autonomous driving. In particular, knowing if pedestrians are going to cross in front of the ego-vehicle is core to performing safe and comfortable maneuvers. Creating accurate and fast models that predict such intentions from sequential images is challenging. A factor contributing to this is the lack of datasets with diverse crossing and non-crossing (C/NC) scenarios. We address this scarceness by introducing a framework, named ARCANE, which allows programmatically generating synthetic datasets consisting of C/NC video clip samples. As an example, we use ARCANE to generate a large and diverse dataset named PedSynth. We will show how PedSynth complements widely used real-world datasets such as JAAD and PIE, so enabling more accurate models for C/NC prediction. Considering the onboard deployment of C/NC prediction models, we also propose a deep model named PedGNN, which is fast and has a very low memory footprint. PedGNN is based on a GNN-GRU architecture that takes a sequence of pedestrian skeletons as input to predict crossing intentions.

arxiv情報

著者 Muhammad Naveed Riaz,Maciej Wielgosz,Abel Garcia Romera,Antonio M. Lopez
発行日 2024-01-12 18:44:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク