Occ-BEV: Multi-Camera Unified Pre-training via 3D Scene Reconstruction

要約

マルチカメラ 3D 認識は、自動運転における著名な研究分野として浮上しており、LiDAR ベースのソリューションに代わる実行可能でコスト効率の高い代替手段を提供します。
しかし、既存のマルチカメラ アルゴリズムは主に単眼画像の事前トレーニングに依存しており、異なるカメラ ビュー間の空間的および時間的相関を見落としています。
この制限に対処するために、私たちは Occ-BEV と呼ばれる初のマルチカメラ統合事前トレーニング フレームワークを提案します。これには、最初に基礎段階として 3D シーンを再構築し、その後下流のタスクでモデルを微調整することが含まれます。
具体的には、3D デコーダは、マルチビュー画像から鳥瞰図 (BEV) 機能を活用して 3D 幾何学的占有率を予測し、モデルが 3D 環境をより包括的に理解できるように設計されています。
Occ-BEV の大きな利点は、事前トレーニングの目的で大量のラベルなしの画像と LiDAR のペアを利用できることです。
提案されたマルチカメラ統合事前トレーニング フレームワークは、マルチカメラ 3D オブジェクト検出や周囲のセマンティック シーンの完成などの主要なタスクで有望な結果を示しています。
nuScenes データセットでの単眼事前トレーニング方法と比較した場合、Occ-BEV は、マルチカメラ 3D オブジェクト検出において mAP で約 2.0%、NDS で約 2.0% の大幅な改善を示し、また周囲の mIoU で 3% の増加を示しています。
セマンティックシーンの完成。
コードは https://github.com/chaytonmin/Occ-BEV で公開されています。

要約(オリジナル)

Multi-camera 3D perception has emerged as a prominent research field in autonomous driving, offering a viable and cost-effective alternative to LiDAR-based solutions. However, existing multi-camera algorithms primarily rely on monocular image pre-training, which overlooks the spatial and temporal correlations among different camera views. To address this limitation, we propose the first multi-camera unified pre-training framework called Occ-BEV, which involves initially reconstructing the 3D scene as the foundational stage and subsequently fine-tuning the model on downstream tasks. Specifically, a 3D decoder is designed for leveraging Bird’s Eye View (BEV) features from multi-view images to predict the 3D geometric occupancy to enable the model to capture a more comprehensive understanding of the 3D environment. A significant benefit of Occ-BEV is its capability of utilizing a considerable volume of unlabeled image-LiDAR pairs for pre-training purposes. The proposed multi-camera unified pre-training framework demonstrates promising results in key tasks such as multi-camera 3D object detection and surrounding semantic scene completion. When compared to monocular pre-training methods on the nuScenes dataset, Occ-BEV shows a significant improvement of about 2.0% in mAP and 2.0% in NDS for multi-camera 3D object detection, as well as a 3% increase in mIoU for surrounding semantic scene completion. Codes are publicly available at https://github.com/chaytonmin/Occ-BEV.

arxiv情報

著者 Chen Min,Xinli Xu,Fuyang Li,Shubin Si,Hanzhang Xue,Weizhong Jiang,Zhichao Zhang,Jimei Li,Dawei Zhao,Liang Xiao,Jiaolong Xu,Yiming Nie,Bin Dai
発行日 2023-06-07 07:53:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM, cs.RO パーマリンク