VisionPAD: A Vision-Centric Pre-training Paradigm for Autonomous Driving

要約

この論文では、自動運転におけるビジョン中心のアルゴリズム用に設計された新しい自己教師あり事前トレーニング パラダイムである VisionPAD を紹介します。
明示的な深度監視を伴うニューラル レンダリングを使用する以前のアプローチとは対照的に、VisionPAD は、より効率的な 3D ガウス スプラッティングを利用して、監視として画像のみを使用してマルチビュー表現を再構築します。
具体的には、ボクセル速度推定のための自己教師あり手法を導入します。
ボクセルを隣接するフレームにワープし、レンダリングされた出力を監視することにより、モデルは連続データ内のモーション キューを効果的に学習します。
さらに、幾何学的知覚を強化するために、マルチフレーム測光一貫性アプローチを採用しています。
レンダリングされた深度と相対的なポーズに基づいて隣接するフレームを現在のフレームに投影し、純粋な画像監視を通じて 3D 幾何学的表現を強化します。
自動運転データセットに関する広範な実験により、VisionPAD が 3D 物体検出、占有予測、地図セグメンテーションのパフォーマンスを大幅に向上させ、最先端の事前トレーニング戦略を大幅に上回っていることが実証されました。

要約(オリジナル)

This paper introduces VisionPAD, a novel self-supervised pre-training paradigm designed for vision-centric algorithms in autonomous driving. In contrast to previous approaches that employ neural rendering with explicit depth supervision, VisionPAD utilizes more efficient 3D Gaussian Splatting to reconstruct multi-view representations using only images as supervision. Specifically, we introduce a self-supervised method for voxel velocity estimation. By warping voxels to adjacent frames and supervising the rendered outputs, the model effectively learns motion cues in the sequential data. Furthermore, we adopt a multi-frame photometric consistency approach to enhance geometric perception. It projects adjacent frames to the current frame based on rendered depths and relative poses, boosting the 3D geometric representation through pure image supervision. Extensive experiments on autonomous driving datasets demonstrate that VisionPAD significantly improves performance in 3D object detection, occupancy prediction and map segmentation, surpassing state-of-the-art pre-training strategies by a considerable margin.

arxiv情報

著者 Haiming Zhang,Wending Zhou,Yiyao Zhu,Xu Yan,Jiantao Gao,Dongfeng Bai,Yingjie Cai,Bingbing Liu,Shuguang Cui,Zhen Li
発行日 2024-11-22 03:59:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク