AD-L-JEPA: Self-Supervised Spatial World Models with Joint Embedding Predictive Architecture for Autonomous Driving with LiDAR Data

要約

人間のドライバーとは対照的に、現在の自動運転システムは依然としてトレーニングのために大量のラベル付きデータを必要とします。
最近、これらのシステムが複雑な現実世界の環境を理解し、自己監視型の事前トレーニングを通じてデータ需要を削減する方法を改善することで、自動運転機能を同時に強化する世界モデルが提案されています。
この論文では、既存の方法とは対照的に、LiDAR データを使用した自動運転のための新しい自己監視型事前トレーニング フレームワークである AD-L-JEPA (別名、共同埋め込み予測アーキテクチャを介した LiDAR データを使用した自動運転) を紹介します。
生成的でも対照的でもない。
私たちの方法は、共同埋め込み予測アーキテクチャを使用して空間世界モデルを学習します。
マスクされた未知の領域を明示的に生成する代わりに、当社の自己教師ありワールド モデルは、鳥瞰図 (BEV) の埋め込みを予測して、自動運転シーンの多様な性質を表現します。
さらに、私たちのアプローチでは、対照学習の場合のように、正と負のペアを手動で作成する必要がなくなります。
AD-L-JEPA により、実装が簡素化され、学習された表現が強化されます。
AD-L-JEPA で学習された埋め込みの高品質を定性的および定量的に実証します。
さらに、LiDAR 3D オブジェクト検出や関連する転移学習などの一般的なダウンストリーム タスクにおける AD-L-JEPA の精度とラベル効率を評価します。
私たちの実験的評価は、AD-L-JEPA が自動運転アプリケーションにおける自己監視型事前トレーニングのための妥当なアプローチであり、最近提案された Occupancy-MAE [1] や ALSO [2] を含む SOTA を上回る最良の利用可能なアプローチであることを示しています。
AD-L-JEPA のソース コードは、https://github.com/HaoranZhuExplorer/AD-L-JEPA-Release で入手できます。

要約(オリジナル)

As opposed to human drivers, current autonomous driving systems still require vast amounts of labeled data to train. Recently, world models have been proposed to simultaneously enhance autonomous driving capabilities by improving the way these systems understand complex real-world environments and reduce their data demands via self-supervised pre-training. In this paper, we present AD-L-JEPA (aka Autonomous Driving with LiDAR data via a Joint Embedding Predictive Architecture), a novel self-supervised pre-training framework for autonomous driving with LiDAR data that, as opposed to existing methods, is neither generative nor contrastive. Our method learns spatial world models with a joint embedding predictive architecture. Instead of explicitly generating masked unknown regions, our self-supervised world models predict Bird’s Eye View (BEV) embeddings to represent the diverse nature of autonomous driving scenes. Our approach furthermore eliminates the need to manually create positive and negative pairs, as is the case in contrastive learning. AD-L-JEPA leads to simpler implementation and enhanced learned representations. We qualitatively and quantitatively demonstrate high-quality of embeddings learned with AD-L-JEPA. We furthermore evaluate the accuracy and label efficiency of AD-L-JEPA on popular downstream tasks such as LiDAR 3D object detection and associated transfer learning. Our experimental evaluation demonstrates that AD-L-JEPA is a plausible approach for self-supervised pre-training in autonomous driving applications and is the best available approach outperforming SOTA, including most recently proposed Occupancy-MAE [1] and ALSO [2]. The source code of AD-L-JEPA is available at https://github.com/HaoranZhuExplorer/AD-L-JEPA-Release.

arxiv情報

著者 Haoran Zhu,Zhenyuan Dong,Kristi Topollai,Anna Choromanska
発行日 2025-01-09 04:47:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク