DiffE2E: Rethinking End-to-End Driving with a Hybrid Action Diffusion and Supervised Policy

要約

エンドツーエンドの学習は、自律運転の変革的なパラダイムとして浮上しています。
ただし、運転行動の本質的にマルチモーダルな性質と、長期尾のシナリオにおける一般化の課題は、堅牢な展開にとって重要な障害のままです。
拡散ベースのエンドツーエンドの自律運転フレームワークであるdiffe2eを提案します。
このフレームワークは、最初に階層的な双方向横断的メカニズムを通じて、マルチセンサー知覚機能のマルチスケールアライメントを実行します。
次に、変圧器アーキテクチャに基づいて、ハイブリッド拡散装置デコーダーの新しいクラスを導入し、拡散ポリシーと監視されたポリシーの両方の強度をシームレスに統合する共同トレーニングパラダイムを採用します。
diffe2eモデルは、拡散が将来の軌跡の分布をキャプチャし、監督が制御可能性と堅牢性を向上させる構造化された潜在スペースを構成します。
グローバルな条件統合モジュールにより、知覚機能が高レベルのターゲットを備えた深い融合を可能にし、軌道生成の品質を大幅に向上させます。
その後、横断的なメカニズムは、統合された特徴とハイブリッド潜在変数との効率的な相互作用を促進し、構造化された出力生成の拡散と監督目標の共同最適化を促進し、最終的にはより堅牢な制御につながります。
実験は、Diffe2EがCarlaの閉ループ評価とNAVSIMベンチマークの両方で最先端のパフォーマンスを達成することを示しています。
提案されている統合された拡散監視ポリシーは、具体化された知能を含むより広いドメインへの拡張の強力な可能性を備えた、ハイブリッドアクション表現のための一般化可能なパラダイムを提供します。
詳細と視覚化は、\ href {https://infinidrive.github.io/diffe2e/} {Project Webサイト}で入手できます。

要約(オリジナル)

End-to-end learning has emerged as a transformative paradigm in autonomous driving. However, the inherently multimodal nature of driving behaviors and the generalization challenges in long-tail scenarios remain critical obstacles to robust deployment. We propose DiffE2E, a diffusion-based end-to-end autonomous driving framework. This framework first performs multi-scale alignment of multi-sensor perception features through a hierarchical bidirectional cross-attention mechanism. It then introduces a novel class of hybrid diffusion-supervision decoders based on the Transformer architecture, and adopts a collaborative training paradigm that seamlessly integrates the strengths of both diffusion and supervised policy. DiffE2E models structured latent spaces, where diffusion captures the distribution of future trajectories and supervision enhances controllability and robustness. A global condition integration module enables deep fusion of perception features with high-level targets, significantly improving the quality of trajectory generation. Subsequently, a cross-attention mechanism facilitates efficient interaction between integrated features and hybrid latent variables, promoting the joint optimization of diffusion and supervision objectives for structured output generation, ultimately leading to more robust control. Experiments demonstrate that DiffE2E achieves state-of-the-art performance in both CARLA closed-loop evaluations and NAVSIM benchmarks. The proposed integrated diffusion-supervision policy offers a generalizable paradigm for hybrid action representation, with strong potential for extension to broader domains including embodied intelligence. More details and visualizations are available at \href{https://infinidrive.github.io/DiffE2E/}{project website}.

arxiv情報

著者 Rui Zhao,Yuze Fan,Ziguo Chen,Fei Gao,Zhenhai Gao
発行日 2025-05-26 04:58:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク