GASP: Unifying Geometric and Semantic Self-Supervised Pre-training for Autonomous Driving

要約

次のトークンの予測に基づいた自己監視の事前トレーニングにより、大規模な言語モデルがテキストの根底にある構造をキャプチャすることができ、大規模に適用された場合、多数のタスクで前例のないパフォーマンスをもたらしました。
同様に、自律運転は膨大な量の空間的データを生成し、環境の基礎となる幾何学的および意味的構造とその進化を長期にわたって学習するために規模を活用する可能性をほのめかします。
この方向には、時空のQUERIED future Pointで、3Dシーンの進化する構造をキャプチャする一般占有率を予測することにより統一された表現を学習する幾何学的およびセマンティックな自己監視前の前訓練方法であるGaspを提案します。
(2)エゴの占有、環境を通るエゴ車のパスのモデリング。
(3)Vision Foundationモデルから蒸留高レベルの機能。
生のセンサー測定の代わりに幾何学的およびセマンティック4D占有フィールドをモデル化することにより、モデルは環境とその進化の構造化された一般化可能な表現を時間とともに学習します。
複数の自律運転ベンチマークでGaspを検証し、セマンティック占有率の予測、オンラインマッピング、および自我軌道予測の大幅な改善を示しています。
我々の結果は、継続的な4D幾何学的およびセマンティック占有率予測が自律運転のためのスケーラブルで効果的なトレーニング前パラダイムを提供することを示しています。
コードと追加の視覚化については、\ href {https://research.zenseact.com/publications/gasp/を参照してください。

要約(オリジナル)

Self-supervised pre-training based on next-token prediction has enabled large language models to capture the underlying structure of text, and has led to unprecedented performance on a large array of tasks when applied at scale. Similarly, autonomous driving generates vast amounts of spatiotemporal data, alluding to the possibility of harnessing scale to learn the underlying geometric and semantic structure of the environment and its evolution over time. In this direction, we propose a geometric and semantic self-supervised pre-training method, GASP, that learns a unified representation by predicting, at any queried future point in spacetime, (1) general occupancy, capturing the evolving structure of the 3D scene; (2) ego occupancy, modeling the ego vehicle path through the environment; and (3) distilled high-level features from a vision foundation model. By modeling geometric and semantic 4D occupancy fields instead of raw sensor measurements, the model learns a structured, generalizable representation of the environment and its evolution through time. We validate GASP on multiple autonomous driving benchmarks, demonstrating significant improvements in semantic occupancy forecasting, online mapping, and ego trajectory prediction. Our results demonstrate that continuous 4D geometric and semantic occupancy prediction provides a scalable and effective pre-training paradigm for autonomous driving. For code and additional visualizations, see \href{https://research.zenseact.com/publications/gasp/.

arxiv情報

著者 William Ljungbergh,Adam Lilja,Adam Tonderski. Arvid Laveno Ling,Carl Lindström,Willem Verbeke,Junsheng Fu,Christoffer Petersson,Lars Hammarstrand,Michael Felsberg
発行日 2025-03-19 20:00:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク