UniPAD: A Universal Pre-training Paradigm for Autonomous Driving

要約

自動運転の文脈では、効果的な特徴学習の重要性が広く認識されています。
従来の 3D 自己監視型事前トレーニング方法は広く成功を収めてきましたが、ほとんどの方法は元々 2D 画像用に設計されたアイデアに従っています。
この論文では、3D 体積微分可能レンダリングを適用した新しい自己教師あり学習パラダイムである UniPAD を紹介します。
UniPAD は 3D 空間を暗黙的にエンコードし、連続的な 3D 形状構造とその 2D 投影の複雑な外観特性の再構築を容易にします。
私たちの手法の柔軟性により、2D と 3D の両方のフレームワークへのシームレスな統合が可能になり、シーンをより全体的に理解できるようになります。
私たちは、さまざまな下流の 3D タスクについて広範な実験を行うことで、UniPAD の実現可能性と有効性を実証します。
私たちの方法では、ライダーベースのベースライン、カメラベースのベースライン、ライダーカメラベースのベースラインがそれぞれ 9.1、7.7、6.9 NDS 大幅に改善されました。
特に、当社の事前トレーニング パイプラインは、nuScenes 検証セットで 3D オブジェクト検出で 73.2 NDS、3D セマンティック セグメンテーションで 79.4 mIoU を達成し、以前の方法と比較して最先端の結果を達成しました。
コードは https://github.com/Nightmare-n/UniPAD で入手できます。

要約(オリジナル)

In the context of autonomous driving, the significance of effective feature learning is widely acknowledged. While conventional 3D self-supervised pre-training methods have shown widespread success, most methods follow the ideas originally designed for 2D images. In this paper, we present UniPAD, a novel self-supervised learning paradigm applying 3D volumetric differentiable rendering. UniPAD implicitly encodes 3D space, facilitating the reconstruction of continuous 3D shape structures and the intricate appearance characteristics of their 2D projections. The flexibility of our method enables seamless integration into both 2D and 3D frameworks, enabling a more holistic comprehension of the scenes. We manifest the feasibility and effectiveness of UniPAD by conducting extensive experiments on various downstream 3D tasks. Our method significantly improves lidar-, camera-, and lidar-camera-based baseline by 9.1, 7.7, and 6.9 NDS, respectively. Notably, our pre-training pipeline achieves 73.2 NDS for 3D object detection and 79.4 mIoU for 3D semantic segmentation on the nuScenes validation set, achieving state-of-the-art results in comparison with previous methods. The code will be available at https://github.com/Nightmare-n/UniPAD.

arxiv情報

著者 Honghui Yang,Sha Zhang,Di Huang,Xiaoyang Wu,Haoyi Zhu,Tong He,Shixiang Tang,Hengshuang Zhao,Qibo Qiu,Binbin Lin,Xiaofei He,Wanli Ouyang
発行日 2023-10-12 14:39:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク