要約
世界を認識し、その将来の状態を予測することは、自動運転にとって重要なタスクです。
教師ありアプローチでは、注釈付きのオブジェクトラベルを利用して世界のモデルを学習します。従来は、オブジェクトの検出と軌道予測、または時間鳥瞰図 (BEV) 占有フィールドが使用されていました。
ただし、これらの注釈は高価であり、通常は事前に定義された一連のカテゴリに限定されており、道路上で遭遇する可能性のあるすべてをカバーしているわけではありません。
代わりに、LiDAR データからの自己監視により、連続的な 4D (時空間) 占有フィールドを認識して予測する方法を学びます。
この教師なし世界モデルは、下流のタスクに簡単かつ効果的に転送できます。
軽量の学習済みレンダラーを追加することで点群予測に取り組み、Argoverse 2、nuScenes、KITTI で最先端のパフォーマンスを実現します。
その転送可能性をさらに示すために、BEV のセマンティック占有予測用にモデルを微調整し、特にラベル付きデータが不足している場合に、完全に監視された最先端のモデルよりも優れていることを示しました。
最後に、時空間幾何学的占有率予測に関する従来の最先端技術と比較すると、当社の 4D 世界モデルは、自動運転に関連するクラスからの物体の再現率がはるかに高くなります。
要約(オリジナル)
Perceiving the world and forecasting its future state is a critical task for self-driving. Supervised approaches leverage annotated object labels to learn a model of the world — traditionally with object detections and trajectory predictions, or temporal bird’s-eye-view (BEV) occupancy fields. However, these annotations are expensive and typically limited to a set of predefined categories that do not cover everything we might encounter on the road. Instead, we learn to perceive and forecast a continuous 4D (spatio-temporal) occupancy field with self-supervision from LiDAR data. This unsupervised world model can be easily and effectively transferred to downstream tasks. We tackle point cloud forecasting by adding a lightweight learned renderer and achieve state-of-the-art performance in Argoverse 2, nuScenes, and KITTI. To further showcase its transferability, we fine-tune our model for BEV semantic occupancy forecasting and show that it outperforms the fully supervised state-of-the-art, especially when labeled data is scarce. Finally, when compared to prior state-of-the-art on spatio-temporal geometric occupancy prediction, our 4D world model achieves a much higher recall of objects from classes relevant to self-driving.
arxiv情報
著者 | Ben Agro,Quinlan Sykora,Sergio Casas,Thomas Gilles,Raquel Urtasun |
発行日 | 2024-06-12 23:22:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google