Multi-Modal Data-Efficient 3D Scene Understanding for Autonomous Driving

要約

自動運転における 3D シーンの理解を進めるには、データの効率的な利用が不可欠です。自動運転では、人間による注釈が大量に付加された LiDAR 点群に依存するため、完全に監視された手法が課題となります。
これに対処するために、私たちの研究は、LiDAR セマンティック セグメンテーションの半教師あり学習にまで拡張し、運転シーンの固有の空間事前分布とマルチセンサーの補完を活用して、ラベルのないデータセットの有効性を強化しています。
LaserMix++ は、異種の LiDAR スキャンからのレーザー ビーム操作を統合し、データ効率の高い学習をさらに支援するために LiDAR カメラの対応を組み込んだ進化したフレームワークです。
私たちのフレームワークは、次のようなマルチモダリティを組み込むことで 3D シーンの一貫性の正規化を強化するように調整されています。
2) LiDAR 機能の学習を強化するカメラから LiDAR への機能の抽出。
3) オープン語彙モデルを使用して補助的な監視を生成する、言語主導の知識ガイダンス。
LaserMix++ の多用途性により、LiDAR 表現全体にわたるアプリケーションが可能になり、普遍的に適用可能なソリューションとして確立されます。
私たちのフレームワークは、一般的な運転知覚データセットに対する理論分析と広範な実験を通じて厳密に検証されています。
結果は、LaserMix++ が完全に監視された代替手段よりも著しく優れたパフォーマンスを示し、5 分の 1 の注釈で同等の精度を達成し、監視のみのベースラインを大幅に改善したことを示しています。
この大幅な進歩は、LiDAR ベースの 3D シーン理解システムにおける広範なラベル付きデータへの依存を軽減する半教師ありアプローチの可能性を強調しています。

要約(オリジナル)

Efficient data utilization is crucial for advancing 3D scene understanding in autonomous driving, where reliance on heavily human-annotated LiDAR point clouds challenges fully supervised methods. Addressing this, our study extends into semi-supervised learning for LiDAR semantic segmentation, leveraging the intrinsic spatial priors of driving scenes and multi-sensor complements to augment the efficacy of unlabeled datasets. We introduce LaserMix++, an evolved framework that integrates laser beam manipulations from disparate LiDAR scans and incorporates LiDAR-camera correspondences to further assist data-efficient learning. Our framework is tailored to enhance 3D scene consistency regularization by incorporating multi-modality, including 1) multi-modal LaserMix operation for fine-grained cross-sensor interactions; 2) camera-to-LiDAR feature distillation that enhances LiDAR feature learning; and 3) language-driven knowledge guidance generating auxiliary supervisions using open-vocabulary models. The versatility of LaserMix++ enables applications across LiDAR representations, establishing it as a universally applicable solution. Our framework is rigorously validated through theoretical analysis and extensive experiments on popular driving perception datasets. Results demonstrate that LaserMix++ markedly outperforms fully supervised alternatives, achieving comparable accuracy with five times fewer annotations and significantly improving the supervised-only baselines. This substantial advancement underscores the potential of semi-supervised approaches in reducing the reliance on extensive labeled data in LiDAR-based 3D scene understanding systems.

arxiv情報

著者 Lingdong Kong,Xiang Xu,Jiawei Ren,Wenwei Zhang,Liang Pan,Kai Chen,Wei Tsang Ooi,Ziwei Liu
発行日 2024-05-08 17:59:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク