UniScene: Multi-Camera Unified Pre-training via 3D Scene Reconstruction

要約

マルチカメラ 3D 認識は、自動運転における著名な研究分野として浮上しており、LiDAR ベースのソリューションに代わる実行可能でコスト効率の高い代替手段を提供します。
既存のマルチカメラ アルゴリズムは主に単眼 2D 事前トレーニングに依存しています。
ただし、単眼 2D 事前トレーニングでは、マルチカメラ システム間の空間的および時間的相関を見落とします。
この制限に対処するために、UniScene と呼ばれる初のマルチカメラ統合事前トレーニング フレームワークを提案します。これには、最初に基礎段階として 3D シーンを再構築し、その後下流のタスクでモデルを微調整することが含まれます。
具体的には、3D シーンの一般的な表現として占有を採用し、モデルが事前トレーニングを通じて周囲の世界の幾何学的事前分布を把握できるようにします。
UniScene の大きな利点は、事前トレーニングの目的で大量のラベルなしの画像と LiDAR のペアを利用できることです。
提案されたマルチカメラ統合事前トレーニング フレームワークは、マルチカメラ 3D オブジェクト検出や周囲のセマンティック シーンの完成などの主要なタスクで有望な結果を示しています。
nuScenes データセットでの単眼事前トレーニング方法と比較した場合、UniScene は、マルチカメラ 3D オブジェクト検出に関して mAP で約 2.0%、NDS で約 2.0% の大幅な改善を示し、また周囲のセマンティック シーンの mIoU で 3% の増加を示しています。
完了。
当社の統合事前トレーニング手法を採用することで、3D トレーニング アノテーション コストの 25% 削減を達成でき、現実世界の自動運転の実装に大きな実用的価値をもたらします。
コードは https://github.com/chaytonmin/UniScene で公開されています。

要約(オリジナル)

Multi-camera 3D perception has emerged as a prominent research field in autonomous driving, offering a viable and cost-effective alternative to LiDAR-based solutions. The existing multi-camera algorithms primarily rely on monocular 2D pre-training. However, the monocular 2D pre-training overlooks the spatial and temporal correlations among the multi-camera system. To address this limitation, we propose the first multi-camera unified pre-training framework, called UniScene, which involves initially reconstructing the 3D scene as the foundational stage and subsequently fine-tuning the model on downstream tasks. Specifically, we employ Occupancy as the general representation for the 3D scene, enabling the model to grasp geometric priors of the surrounding world through pre-training. A significant benefit of UniScene is its capability to utilize a considerable volume of unlabeled image-LiDAR pairs for pre-training purposes. The proposed multi-camera unified pre-training framework demonstrates promising results in key tasks such as multi-camera 3D object detection and surrounding semantic scene completion. When compared to monocular pre-training methods on the nuScenes dataset, UniScene shows a significant improvement of about 2.0% in mAP and 2.0% in NDS for multi-camera 3D object detection, as well as a 3% increase in mIoU for surrounding semantic scene completion. By adopting our unified pre-training method, a 25% reduction in 3D training annotation costs can be achieved, offering significant practical value for the implementation of real-world autonomous driving. Codes are publicly available at https://github.com/chaytonmin/UniScene.

arxiv情報

著者 Chen Min,Liang Xiao,Dawei Zhao,Yiming Nie,Bin Dai
発行日 2024-02-15 00:28:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM, cs.RO パーマリンク