SEPT: Towards Efficient Scene Representation Learning for Motion Prediction

要約

自動運転車が複雑な交通環境で安全に動作するためには、動きの予測が不可欠です。
交通要素間の効果的な時空間関係を抽出することが、正確な予測の鍵となります。
この論文は、事前トレーニングされた大規模言語モデルの成功した実践に触発されて、自己教師あり学習を活用して複雑な交通シーンに対する強力な時空間理解を開発するモデリング フレームワークである SEPT を紹介します。
具体的には、私たちのアプローチには、エージェントの軌道や道路網を含むシーン入力に対する 3 つのマスキング – 再構成モデ​​リング タスクが含まれ、軌道内の運動学、道路網の空間構造、道路とエージェント間の相互作用をキャプチャするためのシーン エンコーダーの事前トレーニングが含まれます。
事前トレーニングされたエンコーダーは、下流の予測タスクで微調整されます。
広範な実験により、SEPT は、精緻なアーキテクチャ設計や手動の特徴エンジニアリングを必要とせずに、Argoverse 1 および Argoverse 2 の動き予測ベンチマークで最先端のパフォーマンスを達成し、すべての主要指標で以前の手法を大幅に上回っていることが実証されました。

要約(オリジナル)

Motion prediction is crucial for autonomous vehicles to operate safely in complex traffic environments. Extracting effective spatiotemporal relationships among traffic elements is key to accurate forecasting. Inspired by the successful practice of pretrained large language models, this paper presents SEPT, a modeling framework that leverages self-supervised learning to develop powerful spatiotemporal understanding for complex traffic scenes. Specifically, our approach involves three masking-reconstruction modeling tasks on scene inputs including agents’ trajectories and road network, pretraining the scene encoder to capture kinematics within trajectory, spatial structure of road network, and interactions among roads and agents. The pretrained encoder is then finetuned on the downstream forecasting task. Extensive experiments demonstrate that SEPT, without elaborate architectural design or manual feature engineering, achieves state-of-the-art performance on the Argoverse 1 and Argoverse 2 motion forecasting benchmarks, outperforming previous methods on all main metrics by a large margin.

arxiv情報

著者 Zhiqian Lan,Yuxuan Jiang,Yao Mu,Chen Chen,Shengbo Eben Li
発行日 2023-12-19 14:14:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク