DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving

要約

最近、拡散モデルはロボットによる政策学習のための強力な生成技術として登場し、マルチモードのアクション分布をモデル化できます。
エンドツーエンドの自動運転の機能を活用することは、有望な方向性です。
しかし、ロボットの普及政策における多数のノイズ除去ステップと、交通シーンのよりダイナミックでオープンワールドな性質により、リアルタイムの速度で多様な運転アクションを生成するには大きな課題が生じています。
これらの課題に対処するために、事前のマルチモード アンカーを組み込んで拡散スケジュールを切り詰める新しい切り詰められた拡散ポリシーを提案します。これにより、モデルがアンカーされたガウス分布からマルチモードの運転アクション分布までノイズ除去を学習できるようになります。
さらに、条件付きシーン コンテキストとの相互作用を強化するために、効率的なカスケード拡散デコーダーを設計します。
提案されたモデルである DiffusionDrive は、バニラの拡散ポリシーと比較してノイズ除去ステップが 10$\times$ 削減され、わずか 2 ステップで優れた多様性と品質を実現します。
調整された ResNet-34 バックボーンを備えた計画指向の NAVSIM データセット上で、DiffusionDrive は、NVIDIA 4090 上で 45 FPS のリアルタイム速度で実行しながら、付加機能なしで 88.1 PDMS を達成し、新記録を樹立しました。
シナリオでは、DiffusionDrive が多様で妥当な運転アクションを確実に生成できることがさらに確認されています。
コードとモデルは https://github.com/hustvl/DiffusionDrive で入手できます。

要約(オリジナル)

Recently, the diffusion model has emerged as a powerful generative technique for robotic policy learning, capable of modeling multi-mode action distributions. Leveraging its capability for end-to-end autonomous driving is a promising direction. However, the numerous denoising steps in the robotic diffusion policy and the more dynamic, open-world nature of traffic scenes pose substantial challenges for generating diverse driving actions at a real-time speed. To address these challenges, we propose a novel truncated diffusion policy that incorporates prior multi-mode anchors and truncates the diffusion schedule, enabling the model to learn denoising from anchored Gaussian distribution to the multi-mode driving action distribution. Additionally, we design an efficient cascade diffusion decoder for enhanced interaction with conditional scene context. The proposed model, DiffusionDrive, demonstrates 10$\times$ reduction in denoising steps compared to vanilla diffusion policy, delivering superior diversity and quality in just 2 steps. On the planning-oriented NAVSIM dataset, with the aligned ResNet-34 backbone, DiffusionDrive achieves 88.1 PDMS without bells and whistles, setting a new record, while running at a real-time speed of 45 FPS on an NVIDIA 4090. Qualitative results on challenging scenarios further confirm that DiffusionDrive can robustly generate diverse plausible driving actions. Code and model will be available at https://github.com/hustvl/DiffusionDrive.

arxiv情報

著者 Bencheng Liao,Shaoyu Chen,Haoran Yin,Bo Jiang,Cheng Wang,Sixu Yan,Xinbang Zhang,Xiangyu Li,Ying Zhang,Qian Zhang,Xinggang Wang
発行日 2024-11-22 18:59:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク