WcDT: World-centric Diffusion Transformer for Traffic Scene Generation

要約

この論文では、拡散確率モデル (別名拡散モデル) とトランスフォーマーの相補的な長所を利用して、自動運転軌道を生成するための新しいアプローチを紹介します。
「World-Centric Diffusion Transformer」(WcDT) と呼ばれる、私たちが提案するフレームワークは、特徴抽出からモデル推論まで、軌道生成プロセス全体を最適化します。
シーンの多様性と確率性を強化するために、履歴軌跡データはまず前処理され、Diffusion with Transformer (DiT) ブロックで強化されたノイズ除去拡散確率モデル (DDPM) を使用して潜在空間にエンコードされます。
次に、潜在的な特徴、過去の軌跡、HD マップの特徴、および過去の交通信号情報が、さまざまな変圧器ベースのエンコーダーで融合されます。
次に、エンコードされた交通シーンは軌道デコーダによってデコードされ、マルチモーダルな将来の軌道が生成されます。
包括的な実験結果は、提案されたアプローチが現実的かつ多様な軌道の生成において優れた性能を示し、自動運転シミュレーション システムへの統合の可能性を示していることを示しています。

要約(オリジナル)

In this paper, we introduce a novel approach for autonomous driving trajectory generation by harnessing the complementary strengths of diffusion probabilistic models (a.k.a., diffusion models) and transformers. Our proposed framework, termed the ‘World-Centric Diffusion Transformer’ (WcDT), optimizes the entire trajectory generation process, from feature extraction to model inference. To enhance the scene diversity and stochasticity, the historical trajectory data is first preprocessed and encoded into latent space using Denoising Diffusion Probabilistic Models (DDPM) enhanced with Diffusion with Transformer (DiT) blocks. Then, the latent features, historical trajectories, HD map features, and historical traffic signal information are fused with various transformer-based encoders. The encoded traffic scenes are then decoded by a trajectory decoder to generate multimodal future trajectories. Comprehensive experimental results show that the proposed approach exhibits superior performance in generating both realistic and diverse trajectories, showing its potential for integration into automatic driving simulation systems.

arxiv情報

著者 Chen Yang,Aaron Xuxiang Tian,Dong Chen,Tianyu Shi,Arsalan Heydarian
発行日 2024-04-02 16:28:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク