要約
このペーパーでは、自律運転におけるビジョン中心のアルゴリズムのために設計された新しい自己監視前のトレーニング前パラダイムであるVisionPadを紹介します。
明示的な深さの監督でニューラルレンダリングを採用した以前のアプローチとは対照的に、VisionPadはより効率的な3Dガウススプラッティングを利用して、監督として画像のみを使用してマルチビュー表現を再構築します。
具体的には、ボクセル速度推定のための自己監視方法を紹介します。
ボクセルを隣接するフレームにゆがめ、レンダリングされた出力を監督することにより、モデルはシーケンシャルデータのモーションキューを効果的に学習します。
さらに、幾何学的知覚を高めるために、マルチフレームの測光一貫性アプローチを採用します。
レンダリングされた深さと相対的なポーズに基づいて、隣接するフレームを現在のフレームに投影し、純粋な画像監視を通じて3D幾何学的表現を高めます。
自律運転データセットでの広範な実験は、ビジョンパッドが3Dオブジェクトの検出、占有予測、マップセグメンテーションのパフォーマンスを大幅に向上させ、最先端のトレーニング前戦略をかなりのマージンで上回ることを示しています。
要約(オリジナル)
This paper introduces VisionPAD, a novel self-supervised pre-training paradigm designed for vision-centric algorithms in autonomous driving. In contrast to previous approaches that employ neural rendering with explicit depth supervision, VisionPAD utilizes more efficient 3D Gaussian Splatting to reconstruct multi-view representations using only images as supervision. Specifically, we introduce a self-supervised method for voxel velocity estimation. By warping voxels to adjacent frames and supervising the rendered outputs, the model effectively learns motion cues in the sequential data. Furthermore, we adopt a multi-frame photometric consistency approach to enhance geometric perception. It projects adjacent frames to the current frame based on rendered depths and relative poses, boosting the 3D geometric representation through pure image supervision. Extensive experiments on autonomous driving datasets demonstrate that VisionPAD significantly improves performance in 3D object detection, occupancy prediction and map segmentation, surpassing state-of-the-art pre-training strategies by a considerable margin.
arxiv情報
著者 | Haiming Zhang,Wending Zhou,Yiyao Zhu,Xu Yan,Jiantao Gao,Dongfeng Bai,Yingjie Cai,Bingbing Liu,Shuguang Cui,Zhen Li |
発行日 | 2025-05-22 03:33:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google