AMP: Autoregressive Motion Prediction Revisited with Next Token Prediction for Autonomous Driving

要約

自動運転 (AD) における重要なタスクとして、動き予測は、ナビゲーションのために周囲の物体の将来の状態を予測することを目的としています。
1 つの自然な解決策は、各予測タイム ステップが観測されたタイム ステップと以前に予測されたタイム ステップの両方に基づいて条件付けされる、段階的な方法で他のエージェントの位置を推定することです。つまり、自己回帰予測です。
SocialLSTM や MFP などの先駆的な企業は、この直感に基づいてデコーダーを設計しています。
ただし、ほとんどすべての最先端の研究では、すべての予測タイムステップが観測されたタイムステップに基づいて独立して条件付けされていると想定しており、単一の線形層を使用してすべてのタイムステップの位置を同時に生成します。
MLP は自己回帰ネットワークと比較してトレーニングが簡単であるため、ほとんどの動き予測リーダーボードを独占しています。
この論文では、GPT スタイルのネクスト トークン予測を動き予測に導入します。
このようにして、入力と出力を統一空間で表現できるため、自己回帰予測がより実現可能になります。
しかし、言葉という均質な単位から構成される言語データとは異なり、ドライブシーンの要素は複雑な時空間関係や意味関係を持つ可能性があります。
この目的を達成するために、我々は、情報集約のために異なる近傍を備えた 3 つの因数分解されたアテンション モジュールを採用し、それらの関係を把握するために異なる位置エンコード スタイルを採用することを提案します。たとえば、時間相対性については RoPE を採用しながら、空間相対性については座標系間の変換をエンコードします。
経験的に、前述のカスタマイズされた設計を装備することにより、提案された方法は Waymo Open Motion および Waymo Interaction データセットで最先端のパフォーマンスを達成します。
特に、AMP は他の最近の自己回帰動き予測手法である MotionLM や StateTransformer よりも優れており、提案された設計の有効性を示しています。

要約(オリジナル)

As an essential task in autonomous driving (AD), motion prediction aims to predict the future states of surround objects for navigation. One natural solution is to estimate the position of other agents in a step-by-step manner where each predicted time-step is conditioned on both observed time-steps and previously predicted time-steps, i.e., autoregressive prediction. Pioneering works like SocialLSTM and MFP design their decoders based on this intuition. However, almost all state-of-the-art works assume that all predicted time-steps are independent conditioned on observed time-steps, where they use a single linear layer to generate positions of all time-steps simultaneously. They dominate most motion prediction leaderboards due to the simplicity of training MLPs compared to autoregressive networks. In this paper, we introduce the GPT style next token prediction into motion forecasting. In this way, the input and output could be represented in a unified space and thus the autoregressive prediction becomes more feasible. However, different from language data which is composed of homogeneous units -words, the elements in the driving scene could have complex spatial-temporal and semantic relations. To this end, we propose to adopt three factorized attention modules with different neighbors for information aggregation and different position encoding styles to capture their relations, e.g., encoding the transformation between coordinate systems for spatial relativity while adopting RoPE for temporal relativity. Empirically, by equipping with the aforementioned tailored designs, the proposed method achieves state-of-the-art performance in the Waymo Open Motion and Waymo Interaction datasets. Notably, AMP outperforms other recent autoregressive motion prediction methods: MotionLM and StateTransformer, which demonstrates the effectiveness of the proposed designs.

arxiv情報

著者 Xiaosong Jia,Shaoshuai Shi,Zijun Chen,Li Jiang,Wenlong Liao,Tao He,Junchi Yan
発行日 2024-03-21 04:01:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク