MotionLM: Multi-Agent Motion Forecasting as Language Modeling


ここでは、連続的な軌跡を離散的なモーション トークンのシーケンスとして表し、このドメイン上の言語モデリング タスクとしてマルチエージェントのモーション予測をキャストします。
私たちのモデル MotionLM にはいくつかの利点があります。 まず、マルチモーダル分布を学習するためにアンカーや明示的な潜在変数の最適化を必要としません。
代わりに、単一の標準言語モデリング目標を活用し、シーケンス トークンに対する平均ログ確率を最大化します。
代わりに、MotionLM は、単一の自己回帰デコード プロセスでインタラクティブ エージェントの将来にわたる結合分布を生成します。
提案されたアプローチは、Waymo Open Motion Dataset 上でマルチエージェント動作予測の新しい最先端のパフォーマンスを確立し、インタラクティブ チャレンジ リーダーボードで 1 位にランクされました。


Reliable forecasting of the future behavior of road agents is a critical component to safe planning in autonomous vehicles. Here, we represent continuous trajectories as sequences of discrete motion tokens and cast multi-agent motion prediction as a language modeling task over this domain. Our model, MotionLM, provides several advantages: First, it does not require anchors or explicit latent variable optimization to learn multimodal distributions. Instead, we leverage a single standard language modeling objective, maximizing the average log probability over sequence tokens. Second, our approach bypasses post-hoc interaction heuristics where individual agent trajectory generation is conducted prior to interactive scoring. Instead, MotionLM produces joint distributions over interactive agent futures in a single autoregressive decoding process. In addition, the model’s sequential factorization enables temporally causal conditional rollouts. The proposed approach establishes new state-of-the-art performance for multi-agent motion prediction on the Waymo Open Motion Dataset, ranking 1st on the interactive challenge leaderboard.


著者 Ari Seff,Brian Cera,Dian Chen,Mason Ng,Aurick Zhou,Nigamaa Nayakanti,Khaled S. Refaat,Rami Al-Rfou,Benjamin Sapp
発行日 2023-09-28 15:46:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク