Motion Transformer with Global Intention Localization and Local Movement Refinement


既存の研究では、潜在的な特徴に基づいて将来の軌道を直接予測するか、密集した目標候補を利用してエージェントの目的地を特定します。前者の戦略はすべてのモーション モードが同じ特徴から導出されるため収束が遅く、後者の戦略はパフォーマンスが大きく依存するため効率の問題があります。
この論文では、グローバルな意図のローカリゼーションとローカルな動きの改良の共同最適化としてモーション予測をモデル化する Motion TRansformer (MTR) フレームワークを提案します。
目標候補を使用する代わりに、MTR は、学習可能なモーション クエリ ペアの小さなセットを採用することにより、空間的意図の優先順位を組み込みます。
各モーション クエリ ペアは、特定のモーション モードの軌道予測と改良を担当します。これにより、トレーニング プロセスが安定し、より優れたマルチモーダル予測が容易になります。
実験では、MTR が限界と関節の両方のモーション予測の課題で最先端のパフォーマンスを達成し、Waymo Open Motion Dataset のリーダーボードで 1 位にランクされていることが示されています。
コードは で入手できます。


Predicting multimodal future behavior of traffic participants is essential for robotic vehicles to make safe decisions. Existing works explore to directly predict future trajectories based on latent features or utilize dense goal candidates to identify agent’s destinations, where the former strategy converges slowly since all motion modes are derived from the same feature while the latter strategy has efficiency issue since its performance highly relies on the density of goal candidates. In this paper, we propose Motion TRansformer (MTR) framework that models motion prediction as the joint optimization of global intention localization and local movement refinement. Instead of using goal candidates, MTR incorporates spatial intention priors by adopting a small set of learnable motion query pairs. Each motion query pair takes charge of trajectory prediction and refinement for a specific motion mode, which stabilizes the training process and facilitates better multimodal predictions. Experiments show that MTR achieves state-of-the-art performance on both the marginal and joint motion prediction challenges, ranking 1st on the leaderboards of Waymo Open Motion Dataset. Code will be available at


著者 Shaoshuai Shi,Li Jiang,Dengxin Dai,Bernt Schiele
発行日 2022-09-27 16:23:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV パーマリンク