End-to-End Autonomous Driving without Costly Modularization and 3D Manual Annotation

要約

我々は、ビジョンベースのエンドツーエンド自動運転 (E2EAD) の手法である UAD を提案し、nuScenes で最高の開ループ評価パフォーマンスを実現し、同時に CARLA で堅牢な閉ループ運転品質を示します。
私たちの動機は、現在の E2EAD モデルが依然として典型的な駆動スタックのモジュラー アーキテクチャを模倣しており、指向性のある計画のための環境情報を提供するために慎重に設計された教師付き認識および予測サブタスクを備えているという観察から生じています。
画期的な進歩を遂げていますが、このような設計にはいくつかの欠点があります。1) 先行するサブタスクでは、監視として大規模な高品質の 3D アノテーションが必要であり、トレーニング データのスケーリングに大きな障害となっています。
2) 各サブモジュールは、トレーニングと推論の両方でかなりの計算オーバーヘッドを伴います。
この目的を達成するために、これらすべての問題に対処するための監視されていないプロキシを備えた E2EAD フレームワークである UAD を提案します。
まず、注釈の要件を排除するために、新しい角度認識口実を設計します。
口実は、手動の注釈を付けずに、角度に関する空間的なオブジェクト性と時間的なダイナミクスを予測することによって、運転シーンをモデル化します。
第二に、異なる拡張ビューの下で予測軌道の一貫性を学習する自己教師ありトレーニング戦略を提案し、ステアリングシナリオの計画ロバスト性を強化します。
当社の UAD は、nuScenes での平均衝突率で UniAD と比較して 38.7% の相対的な改善を達成し、CARLA の Town05 Long ベンチマークの運転スコアで 41.32 ポイントで VAD を上回りました。
さらに、提案された方法は、UniAD の 44.3% のトレーニング リソースのみを消費し、推論では 3.4 倍高速に実行されます。
当社の革新的な設計は、監視付きの同等品と比較して議論の余地のないパフォーマンス上の利点を初めて実証しただけでなく、データ、トレーニング、推論において前例のない効率を享受しています。
コードとモデルは https://github.com/KargoBot_Research/UAD でリリースされます。

要約(オリジナル)

We propose UAD, a method for vision-based end-to-end autonomous driving (E2EAD), achieving the best open-loop evaluation performance in nuScenes, meanwhile showing robust closed-loop driving quality in CARLA. Our motivation stems from the observation that current E2EAD models still mimic the modular architecture in typical driving stacks, with carefully designed supervised perception and prediction subtasks to provide environment information for oriented planning. Although achieving groundbreaking progress, such design has certain drawbacks: 1) preceding subtasks require massive high-quality 3D annotations as supervision, posing a significant impediment to scaling the training data; 2) each submodule entails substantial computation overhead in both training and inference. To this end, we propose UAD, an E2EAD framework with an unsupervised proxy to address all these issues. Firstly, we design a novel Angular Perception Pretext to eliminate the annotation requirement. The pretext models the driving scene by predicting the angular-wise spatial objectness and temporal dynamics, without manual annotation. Secondly, a self-supervised training strategy, which learns the consistency of the predicted trajectories under different augment views, is proposed to enhance the planning robustness in steering scenarios. Our UAD achieves 38.7% relative improvements over UniAD on the average collision rate in nuScenes and surpasses VAD for 41.32 points on the driving score in CARLA’s Town05 Long benchmark. Moreover, the proposed method only consumes 44.3% training resources of UniAD and runs 3.4 times faster in inference. Our innovative design not only for the first time demonstrates unarguable performance advantages over supervised counterparts, but also enjoys unprecedented efficiency in data, training, and inference. Code and models will be released at https://github.com/KargoBot_Research/UAD.

arxiv情報

著者 Mingzhe Guo,Zhipeng Zhang,Yuan He,Ke Wang,Liping Jing
発行日 2024-06-25 16:12:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク