TransDiffuser: End-to-end Trajectory Generation with Decorrelated Multi-modal Representation for Autonomous Driving

要約

近年、拡散モデルは、ビジョン生成から言語モデリングまで、多様なドメイン全体でその可能性を示しています。
その機能を最新の自律運転システムに転送することも有望な方向として浮上しました。この作業では、エンドツーエンドの自律運転のためのエンコーダーデコーダーベースの生成軌道計画モデルであるTransDiffuserを提案します。
エンコードされたシーン情報は、除去デコーダーのマルチモーダル条件付き入力として機能します。
高品質の多様な軌跡を生成する際のモード崩壊のジレンマに取り組むために、トレーニングプロセス中にシンプルで効果的なマルチモーダル表現の脱相関最適化メカニズムを導入します。トランスディフューザーは、NAVSIMベンチマークで94.85のPDMSを達成し、以前の前部の前部の前部を使用せずに以前の最先端の方法を上回ります。

要約(オリジナル)

In recent years, diffusion model has shown its potential across diverse domains from vision generation to language modeling. Transferring its capabilities to modern autonomous driving systems has also emerged as a promising direction.In this work, we propose TransDiffuser, an encoder-decoder based generative trajectory planning model for end-to-end autonomous driving. The encoded scene information serves as the multi-modal conditional input of the denoising decoder. To tackle the mode collapse dilemma in generating high-quality diverse trajectories, we introduce a simple yet effective multi-modal representation decorrelation optimization mechanism during the training process.TransDiffuser achieves PDMS of 94.85 on the NAVSIM benchmark, surpassing previous state-of-the-art methods without any anchor-based prior trajectories.

arxiv情報

著者 Xuefeng Jiang,Yuan Ma,Pengxiang Li,Leimeng Xu,Xin Wen,Kun Zhan,Zhongpu Xia,Peng Jia,XianPeng Lang,Sheng Sun
発行日 2025-05-14 12:10:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク