Real-time 3D semantic occupancy prediction for autonomous vehicles using memory-efficient sparse convolution

要約

自動運転車では、自車の周囲の 3D 環境をリアルタイムで理解することが不可欠です。
幾何学的距離と意味論的なオブジェクト情報をエンコードしながらシーンを表現するコンパクトな方法は、3D 意味論的占有マップを使用することです。
最先端の 3D マッピング手法では、クロスアテンション メカニズムを備えたトランスフォーマーを利用して、2D ビジョン中心のカメラ機能を 3D ドメインに高めます。
ただし、これらの方法は、推論中に高い計算量が要求されるため、リアルタイム アプリケーションでは重大な課題に直面します。
この制限は、GPU リソースをローカリゼーションや計画などの他のタスクと共有する必要がある自動運転車では特に問題になります。
この論文では、フロントビュー 2D カメラ画像と LiDAR スキャンから特徴を抽出し、スパース畳み込みネットワーク (Minkowski Engine) を使用して 3D セマンティック占有予測を行うアプローチを紹介します。
自動運転シナリオにおける屋外シーンは本質的にまばらであることを考えると、スパース コンボリューションの利用は特に適切です。
まばらなシーンの 3D シーン完成と 3D セマンティック セグメンテーションの問題を共同で解決することで、自動運転車のリアルタイム アプリケーションに適した、より効率的な学習フレームワークを提供します。
また、nuScenes データセットで優れた精度を実証します。

要約(オリジナル)

In autonomous vehicles, understanding the surrounding 3D environment of the ego vehicle in real-time is essential. A compact way to represent scenes while encoding geometric distances and semantic object information is via 3D semantic occupancy maps. State of the art 3D mapping methods leverage transformers with cross-attention mechanisms to elevate 2D vision-centric camera features into the 3D domain. However, these methods encounter significant challenges in real-time applications due to their high computational demands during inference. This limitation is particularly problematic in autonomous vehicles, where GPU resources must be shared with other tasks such as localization and planning. In this paper, we introduce an approach that extracts features from front-view 2D camera images and LiDAR scans, then employs a sparse convolution network (Minkowski Engine), for 3D semantic occupancy prediction. Given that outdoor scenes in autonomous driving scenarios are inherently sparse, the utilization of sparse convolution is particularly apt. By jointly solving the problems of 3D scene completion of sparse scenes and 3D semantic segmentation, we provide a more efficient learning framework suitable for real-time applications in autonomous vehicles. We also demonstrate competitive accuracy on the nuScenes dataset.

arxiv情報

著者 Samuel Sze,Lars Kunze
発行日 2024-03-13 17:50:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク