MTR++: Multi-Agent Motion Prediction with Symmetric Scene Modeling and Guided Intention Querying

要約

動き予測は、自動運転システムが複雑な運転シナリオを理解し、情報に基づいた意思決定を行うために不可欠です。
しかし、交通参加者の行動は多様であり、環境状況も複雑であるため、この作業は困難です。
このペーパーでは、これらの課題に対処する Motion TRansformer (MTR) フレームワークを提案します。
初期の MTR フレームワークは、学習可能な意図クエリを備えたトランスフォーマー エンコーダー/デコーダー構造を利用し、将来の軌道の効率的かつ正確な予測を可能にします。
MTR は、個別の動作モダリティの意図クエリをカスタマイズすることにより、密な目標候補への依存を減らしながら、マルチモーダル動作予測を改善します。
このフレームワークは、全体的な効率を向上させるエージェントの意図を特定するグローバル意図ローカリゼーションと、精度を向上させるために予測軌道を適応的に調整するローカル動作改良という 2 つの重要なプロセスで構成されます。
さらに、高度な MTR++ フレームワークを導入し、MTR の機能を拡張して、複数のエージェントのマルチモーダルな動きを同時に予測します。
MTR++ には、対称コンテキスト モデリングと相互誘導型意図クエリ モジュールが組み込まれており、複数のエージェント間の将来の動作の相互作用を促進し、シーンに準拠した将来の軌道を実現します。
広範な実験結果は、MTR フレームワークが競争力の高い動作予測ベンチマークで最先端のパフォーマンスを達成する一方、MTR++ フレームワークはその前世代を上回り、複数のエージェントの正確なマルチモーダルな将来の軌道を予測する際のパフォーマンスと効率が向上していることを示しています。

要約(オリジナル)

Motion prediction is crucial for autonomous driving systems to understand complex driving scenarios and make informed decisions. However, this task is challenging due to the diverse behaviors of traffic participants and complex environmental contexts. In this paper, we propose Motion TRansformer (MTR) frameworks to address these challenges. The initial MTR framework utilizes a transformer encoder-decoder structure with learnable intention queries, enabling efficient and accurate prediction of future trajectories. By customizing intention queries for distinct motion modalities, MTR improves multimodal motion prediction while reducing reliance on dense goal candidates. The framework comprises two essential processes: global intention localization, identifying the agent’s intent to enhance overall efficiency, and local movement refinement, adaptively refining predicted trajectories for improved accuracy. Moreover, we introduce an advanced MTR++ framework, extending the capability of MTR to simultaneously predict multimodal motion for multiple agents. MTR++ incorporates symmetric context modeling and mutually-guided intention querying modules to facilitate future behavior interaction among multiple agents, resulting in scene-compliant future trajectories. Extensive experimental results demonstrate that the MTR framework achieves state-of-the-art performance on the highly-competitive motion prediction benchmarks, while the MTR++ framework surpasses its precursor, exhibiting enhanced performance and efficiency in predicting accurate multimodal future trajectories for multiple agents.

arxiv情報

著者 Shaoshuai Shi,Li Jiang,Dengxin Dai,Bernt Schiele
発行日 2023-06-30 16:23:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク