DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving

要約

現在のエンドツーエンドの自動運転方法は、さまざまなタスク (認識、予測、計画など) のモジュール設計を統合することに頼っています。
完全に微分可能なフレームワークを備えた計画指向の精神で最適化されていますが、自己中心的な設計を持たない既存のエンドツーエンド駆動システムは、ラスター化されたシーン表現の学習と冗長な情報送信により、依然として満足のいくパフォーマンスと劣った効率に悩まされています。
この論文では、人間の運転行動を再考し、エンドツーエンドの自動運転のための、DiFSD と呼ばれる自己中心的な完全にスパースなパラダイムを提案します。
具体的には、DiFSD は主に、スパース知覚、階層的インタラクション、および反復モーション プランナーで構成されます。
スパース認識モジュールは、運転シーンのスパース表現に基づいて、検出、追跡、およびオンライン マッピングを実行します。
階層的対話モジュールは、追加の幾何学的事前分布の恩恵を受けて、粗いものから細かいものまで経路内最接近車両/静止車 (CIPV / CIPS) を選択することを目的としています。
反復運動プランナーに関しては、選択された対話型エージェントと自車両の両方が関節運動予測の対象とされ、出力されるマルチモーダル自我軌道が反復方式で最適化されます。
さらに、位置レベルのモーション拡散と軌道レベルの計画ノイズ除去の両方が不確実性モデリングに導入されているため、フレームワーク全体のトレーニングの安定性と収束が促進されます。
nuScenes と Bench2Drive データセットに対して行われた広範な実験により、DiFSD の優れた計画パフォーマンスと優れた効率が実証されました。

要約(オリジナル)

Current end-to-end autonomous driving methods resort to unifying modular designs for various tasks (e.g. perception, prediction and planning). Although optimized in a planning-oriented spirit with a fully differentiable framework, existing end-to-end driving systems without ego-centric designs still suffer from unsatisfactory performance and inferior efficiency, owing to the rasterized scene representation learning and redundant information transmission. In this paper, we revisit the human driving behavior and propose an ego-centric fully sparse paradigm, named DiFSD, for end-to-end self-driving. Specifically, DiFSD mainly consists of sparse perception, hierarchical interaction and iterative motion planner. The sparse perception module performs detection, tracking and online mapping based on sparse representation of the driving scene. The hierarchical interaction module aims to select the Closest In-Path Vehicle / Stationary (CIPV / CIPS) from coarse to fine, benefiting from an additional geometric prior. As for the iterative motion planner, both selected interactive agents and ego-vehicle are considered for joint motion prediction, where the output multi-modal ego-trajectories are optimized in an iterative fashion. Besides, both position-level motion diffusion and trajectory-level planning denoising are introduced for uncertainty modeling, thus facilitating the training stability and convergence of the whole framework. Extensive experiments conducted on nuScenes and Bench2Drive datasets demonstrate the superior planning performance and great efficiency of DiFSD.

arxiv情報

著者 Haisheng Su,Wei Wu,Junchi Yan
発行日 2024-11-26 04:25:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク