Crossfusor: A Cross-Attention Transformer Enhanced Conditional Diffusion Model for Car-Following Trajectory Prediction

要約

車両軌道予測は、自動運転と先進運転支援システム (ADAS) を進化させ、交通の安全性と交通効率を向上させるために重要です。
従来の手法は基礎的な研究を行ってきましたが、最新の深層学習技術、特にトランスベースのモデルと生成アプローチは、車両の動きや交通インタラクションにおける複雑で非線形のパターンを捕捉することで、予測精度を大幅に向上させました。
ただし、これらのモデルでは、現実世界の運転シナリオに不可欠な詳細な車の追従動作や車両間の相互作用が見落とされていることがよくあります。
この研究では、車の追従軌道予測用に特別に設計されたクロスアテンション トランスフォーマー強化条件付き拡散モデル (Crossfusor) を導入します。
Crossfusor は、詳細な車両間の相互作用と車両追従ダイナミクスを堅牢な拡散フレームワークに統合し、予測軌跡の精度と現実性の両方を向上させます。
このモデルは、GRU、位置ベースのアテンション メカニズム、およびフーリエ埋め込みを組み合わせた新しい時間的特徴エンコード フレームワークを活用して、歴史的な車両ダイナミクスをキャプチャします。
順拡散プロセスでは、これらのエンコードされた履歴特徴によってスケーリングされたノイズが使用され、逆ノイズ除去プロセスではクロスアテンション トランスフォーマーを使用して複雑な車両間の依存関係がモデル化されます。
NGSIM データセットの実験結果は、Crossfusor が、特に長期予測において最先端のモデルを上回るパフォーマンスを示し、自動運転システムの予測機能を強化する可能性を示しています。

要約(オリジナル)

Vehicle trajectory prediction is crucial for advancing autonomous driving and advanced driver assistance systems (ADAS), enhancing road safety and traffic efficiency. While traditional methods have laid foundational work, modern deep learning techniques, particularly transformer-based models and generative approaches, have significantly improved prediction accuracy by capturing complex and non-linear patterns in vehicle motion and traffic interactions. However, these models often overlook the detailed car-following behaviors and inter-vehicle interactions essential for real-world driving scenarios. This study introduces a Cross-Attention Transformer Enhanced Conditional Diffusion Model (Crossfusor) specifically designed for car-following trajectory prediction. Crossfusor integrates detailed inter-vehicular interactions and car-following dynamics into a robust diffusion framework, improving both the accuracy and realism of predicted trajectories. The model leverages a novel temporal feature encoding framework combining GRU, location-based attention mechanisms, and Fourier embedding to capture historical vehicle dynamics. It employs noise scaled by these encoded historical features in the forward diffusion process, and uses a cross-attention transformer to model intricate inter-vehicle dependencies in the reverse denoising process. Experimental results on the NGSIM dataset demonstrate that Crossfusor outperforms state-of-the-art models, particularly in long-term predictions, showcasing its potential for enhancing the predictive capabilities of autonomous driving systems.

arxiv情報

著者 Junwei You,Haotian Shi,Keshu Wu,Keke Long,Sicheng Fu,Sikai Chen,Bin Ran
発行日 2024-06-17 17:35:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク