SuperFlow++: Enhanced Spatiotemporal Consistency for Cross-Modal Data Pretraining

要約

LIDARの表現学習は、費用と労働集約的な人間の注釈への依存を減らすための有望なアプローチとして浮上しています。
既存の方法は、主にLidarセンサーとカメラセンサーの間の空間的アライメントに焦点を当てていますが、運転シナリオの動きとシーンの連続性をキャプチャするために重要な時間的ダイナミクスを見落としていることがよくあります。
この制限に対処するために、Superflow ++を提案します。これは、連続したLidar-Cameraペアを使用して、前後のタスクと下流の両方のタスクの空間的キューを統合する新しいフレームワークです。
Superflow ++は、4つの重要なコンポーネントを導入します。(1)カメラビュー全体でセマンティック情報を統合するビューの一貫性アラインメントモジュール、(2)さまざまな点雲の密度全体で特徴の堅牢性を高めるための密な球形とスパルの一貫性の正規化メカニズム、(3)aの一時的な票を補うための一時的な票を補うための一時的な関係を促進するフローベースの造影学習アプローチ
予測の一貫性。
11の不均一なLIDARデータセットでの広範な評価は、スーパーフロー++が多様なタスクと運転条件で最新の方法を上回ることを示しています。
さらに、事前トレーニング中に2Dバックボーンと3Dバックボーンの両方をスケーリングすることにより、スケーラブルな3Dファンデーションモデルの開発に関するより深い洞察を提供する緊急特性を明らかにします。
強力な一般化可能性と計算効率により、Superflow ++は、自律運転におけるデータ効率の高いLIDARベースの認識のための新しいベンチマークを確立します。
このコードは、https://github.com/xiangxu-0103/superflowで公開されています

要約(オリジナル)

LiDAR representation learning has emerged as a promising approach to reducing reliance on costly and labor-intensive human annotations. While existing methods primarily focus on spatial alignment between LiDAR and camera sensors, they often overlook the temporal dynamics critical for capturing motion and scene continuity in driving scenarios. To address this limitation, we propose SuperFlow++, a novel framework that integrates spatiotemporal cues in both pretraining and downstream tasks using consecutive LiDAR-camera pairs. SuperFlow++ introduces four key components: (1) a view consistency alignment module to unify semantic information across camera views, (2) a dense-to-sparse consistency regularization mechanism to enhance feature robustness across varying point cloud densities, (3) a flow-based contrastive learning approach that models temporal relationships for improved scene understanding, and (4) a temporal voting strategy that propagates semantic information across LiDAR scans to improve prediction consistency. Extensive evaluations on 11 heterogeneous LiDAR datasets demonstrate that SuperFlow++ outperforms state-of-the-art methods across diverse tasks and driving conditions. Furthermore, by scaling both 2D and 3D backbones during pretraining, we uncover emergent properties that provide deeper insights into developing scalable 3D foundation models. With strong generalizability and computational efficiency, SuperFlow++ establishes a new benchmark for data-efficient LiDAR-based perception in autonomous driving. The code is publicly available at https://github.com/Xiangxu-0103/SuperFlow

arxiv情報

著者 Xiang Xu,Lingdong Kong,Hui Shuai,Wenwei Zhang,Liang Pan,Kai Chen,Ziwei Liu,Qingshan Liu
発行日 2025-03-25 17:59:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク