UniWorld: Autonomous Driving Pre-training via World Models

要約

この論文では、1989 年の Alberto Elfes の先駆的な研究からインスピレーションを得ており、彼はロボットの世界モデルとして占有グリッドの概念を導入しました。
UniWorld と呼ばれる時空間世界モデルをロボットに埋め込み、ロボットの周囲を認識し、他の参加者の将来の行動を予測します。
UniWorld では、最初に基礎段階のワールド モデルとして 4D 幾何学的占有率を予測し、その後下流のタスクを微調整します。
UniWorld は、世界の状態に関して欠落している情報を推定し、世界のありそうな将来の状態を予測することができます。
さらに、UniWorld の事前トレーニング プロセスはラベルフリーであり、大量の画像と LiDAR のペアを利用して基礎モデルを構築できます。提案された統合事前トレーニング フレームワークは、動き予測、マルチカメラなどの主要なタスクで有望な結果を示しています。
3D オブジェクトの検出、および周囲のセマンティック シーンの完成。
nuScenes データセットでの単眼事前トレーニング方法と比較した場合、UniWorld は、動き予測の IoU で約 1.5%、マルチカメラ 3D オブジェクト検出の mAP で 2.0%、NDS で 2.0% という大幅な改善を示しています。
周囲のセマンティック シーンの完了に対する mIoU の % 増加。
当社の統合事前トレーニング手法を採用することで、3D トレーニング アノテーション コストの 25% 削減を達成でき、現実世界の自動運転の実装に大きな実用的価値をもたらします。
コードは https://github.com/chaytonmin/UniWorld で公開されています。

要約(オリジナル)

In this paper, we draw inspiration from Alberto Elfes’ pioneering work in 1989, where he introduced the concept of the occupancy grid as World Models for robots. We imbue the robot with a spatial-temporal world model, termed UniWorld, to perceive its surroundings and predict the future behavior of other participants. UniWorld involves initially predicting 4D geometric occupancy as the World Models for foundational stage and subsequently fine-tuning on downstream tasks. UniWorld can estimate missing information concerning the world state and predict plausible future states of the world. Besides, UniWorld’s pre-training process is label-free, enabling the utilization of massive amounts of image-LiDAR pairs to build a Foundational Model.The proposed unified pre-training framework demonstrates promising results in key tasks such as motion prediction, multi-camera 3D object detection, and surrounding semantic scene completion. When compared to monocular pre-training methods on the nuScenes dataset, UniWorld shows a significant improvement of about 1.5% in IoU for motion prediction, 2.0% in mAP and 2.0% in NDS for multi-camera 3D object detection, as well as a 3% increase in mIoU for surrounding semantic scene completion. By adopting our unified pre-training method, a 25% reduction in 3D training annotation costs can be achieved, offering significant practical value for the implementation of real-world autonomous driving. Codes are publicly available at https://github.com/chaytonmin/UniWorld.

arxiv情報

著者 Chen Min,Dawei Zhao,Liang Xiao,Yiming Nie,Bin Dai
発行日 2023-08-14 16:17:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク