HAMF: A Hybrid Attention-Mamba Framework for Joint Scene Context Understanding and Future Motion Representation Learning

要約

モーション予測は、自律的な駆動システムにおける重要な課題を表しており、周囲のエージェントの将来の軌跡の正確な予測が必要です。
既存のアプローチは、歴史的なエージェントの軌跡や道路レイアウトから抽出されたシーンコンテキスト機能を使用して将来のモーション状態を予測しますが、シーン機能のエンコード中の情報劣化に苦しんでいます。
制限に対処するために、シーンのコンテキストを共同でエンコードするシーンのコンテキストで将来のモーション表現を学習する新しいモーション予測フレームワークであるHAMFを提案し、シーンの理解と将来のモーション状態予測を首尾一貫して組み合わせます。
最初に、観測されたエージェント状態を埋め込み、情報情報を1Dトークンシーケンスにマップし、ターゲットマルチモーダルの将来のモーション機能を学習可能なトークンのセットとして組み合わせました。
次に、統一された注意ベースのエンコーダーを設計します。これは、自己触たちと相互触媒メカニズムを相乗的に組み合わせて、シーンコンテキスト情報をモデル化し、将来のモーション機能を共同で集約します。
エンコーダを補完すると、デコード段階にMAMBAモジュールを実装して、学習した将来のモーション表現間の一貫性と相関をさらに維持し、正確で多様な最終軌跡を生成します。
Armoverse 2ベンチマークに関する広範な実験は、ハイブリッドの注意マンバモデルが、シンプルで軽量なアーキテクチャで最先端のモーション予測パフォーマンスを達成することを示しています。

要約(オリジナル)

Motion forecasting represents a critical challenge in autonomous driving systems, requiring accurate prediction of surrounding agents’ future trajectories. While existing approaches predict future motion states with the extracted scene context feature from historical agent trajectories and road layouts, they suffer from the information degradation during the scene feature encoding. To address the limitation, we propose HAMF, a novel motion forecasting framework that learns future motion representations with the scene context encoding jointly, to coherently combine the scene understanding and future motion state prediction. We first embed the observed agent states and map information into 1D token sequences, together with the target multi-modal future motion features as a set of learnable tokens. Then we design a unified Attention-based encoder, which synergistically combines self-attention and cross-attention mechanisms to model the scene context information and aggregate future motion features jointly. Complementing the encoder, we implement the Mamba module in the decoding stage to further preserve the consistency and correlations among the learned future motion representations, to generate the accurate and diverse final trajectories. Extensive experiments on Argoverse 2 benchmark demonstrate that our hybrid Attention-Mamba model achieves state-of-the-art motion forecasting performance with the simple and lightweight architecture.

arxiv情報

著者 Xiaodong Mei,Sheng Wang,Jie Cheng,Yingbing Chen,Dan Xu
発行日 2025-05-21 16:16:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク