DriveWorld: 4D Pre-trained Scene Understanding via World Models for Autonomous Driving

要約

ビジョン中心の自動運転は、コストが低いため、最近広く注目を集めています。
普遍的な表現を抽出するには、事前トレーニングが不可欠です。
しかし、現在の視覚中心の事前トレーニングは通常、2D または 3D のプレテキスト タスクに依存しており、4D シーン理解タスクとしての自動運転の時間的特性が見落とされています。
この論文では、\emph{DriveWorld} と呼ばれるワールド モデルベースの自動運転 4D 表現学習フレームワークを導入することで、この課題に対処します。このフレームワークは、マルチカメラの運転ビデオから時空間的に事前トレーニングすることができます。
具体的には、時空間モデリングのためのメモリ状態空間モデルを提案します。これは、将来の変化を予測するために時間認識の潜在力学を学習するための動的メモリバンクモジュールと、提供するために空間認識の潜在力学を学習するための静的シーン伝播モジュールで構成されます。
包括的なシーンのコンテキスト。
さらに、さまざまなダウンストリーム タスクのタスク認識機能を分離するタスク プロンプトも導入しました。
この実験は、DriveWorld がさまざまな自動運転タスクにおいて有望な結果をもたらすことを実証しています。
OpenScene データセットで事前トレーニングすると、DriveWorld は 3D オブジェクト検出の mAP で 7.5% 増加、オンライン マッピングで IoU で 3.0% 増加、マルチオブジェクト追跡で AMOTA で 5.0% 増加、minADE で 0.1m 減少を達成しました。
動作予測では IoU が 3.0% 増加し、占有予測では IoU が 3.0% 増加し、計画では平均 L2 エラーが 0.34 万減少しました。

要約(オリジナル)

Vision-centric autonomous driving has recently raised wide attention due to its lower cost. Pre-training is essential for extracting a universal representation. However, current vision-centric pre-training typically relies on either 2D or 3D pre-text tasks, overlooking the temporal characteristics of autonomous driving as a 4D scene understanding task. In this paper, we address this challenge by introducing a world model-based autonomous driving 4D representation learning framework, dubbed \emph{DriveWorld}, which is capable of pre-training from multi-camera driving videos in a spatio-temporal fashion. Specifically, we propose a Memory State-Space Model for spatio-temporal modelling, which consists of a Dynamic Memory Bank module for learning temporal-aware latent dynamics to predict future changes and a Static Scene Propagation module for learning spatial-aware latent statics to offer comprehensive scene contexts. We additionally introduce a Task Prompt to decouple task-aware features for various downstream tasks. The experiments demonstrate that DriveWorld delivers promising results on various autonomous driving tasks. When pre-trained with the OpenScene dataset, DriveWorld achieves a 7.5% increase in mAP for 3D object detection, a 3.0% increase in IoU for online mapping, a 5.0% increase in AMOTA for multi-object tracking, a 0.1m decrease in minADE for motion forecasting, a 3.0% increase in IoU for occupancy prediction, and a 0.34m reduction in average L2 error for planning.

arxiv情報

著者 Chen Min,Dawei Zhao,Liang Xiao,Jian Zhao,Xinli Xu,Zheng Zhu,Lei Jin,Jianshu Li,Yulan Guo,Junliang Xing,Liping Jing,Yiming Nie,Bin Dai
発行日 2024-05-07 15:14:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク