Multi-Modal Data-Efficient 3D Scene Understanding for Autonomous Driving

要約

効率的なデータ活用は、自律走行における3Dシーン理解を進める上で非常に重要であり、人間が注釈を付けたLiDAR点群に依存することは、完全な教師あり手法に挑戦することになる。そこで、我々の研究では、LiDARセマンティックセグメンテーションのための半教師付き学習へと拡張し、走行シーンに内在する空間的な事前分布を活用し、ラベル付けされていないデータセットの有効性を高めるためにマルチセンサーを補完する。我々はLaserMix++を紹介する。LaserMix++は、異なるLiDARスキャンからのレーザービーム操作を統合し、LiDARとカメラの対応関係を組み込んだ進化したフレームワークであり、データ効率的な学習をさらに支援する。我々のフレームワークは、1)きめ細かいクロスセンサー相互作用のためのマルチモーダルLaserMix操作、2)LiDAR特徴学習を強化するカメラからLiDARへの特徴抽出、3)オープンボキャブラリーモデルを使用した補助スーパービジョンを生成する言語駆動型知識ガイダンスなど、マルチモダリティを取り入れることにより、3Dシーンの一貫性正則化を強化するように調整されている。LaserMix++の汎用性により、LiDARの様々な表現への応用が可能となり、普遍的に適用可能なソリューションとして確立しました。我々のフレームワークは、理論的な分析と、一般的な運転知覚データセットに対する広範な実験を通して厳密に検証されている。その結果、LaserMix++は完全教師ありの代替案を著しく凌駕し、5倍少ないアノテーションで同等の精度を達成し、教師ありのみのベースラインを大幅に改善した。この大幅な進歩は、LiDARベースの3Dシーン理解システムにおいて、大規模なラベル付きデータへの依存を減らす半教師ありアプローチの可能性を強調するものである。

要約(オリジナル)

Efficient data utilization is crucial for advancing 3D scene understanding in autonomous driving, where reliance on heavily human-annotated LiDAR point clouds challenges fully supervised methods. Addressing this, our study extends into semi-supervised learning for LiDAR semantic segmentation, leveraging the intrinsic spatial priors of driving scenes and multi-sensor complements to augment the efficacy of unlabeled datasets. We introduce LaserMix++, an evolved framework that integrates laser beam manipulations from disparate LiDAR scans and incorporates LiDAR-camera correspondences to further assist data-efficient learning. Our framework is tailored to enhance 3D scene consistency regularization by incorporating multi-modality, including 1) multi-modal LaserMix operation for fine-grained cross-sensor interactions; 2) camera-to-LiDAR feature distillation that enhances LiDAR feature learning; and 3) language-driven knowledge guidance generating auxiliary supervisions using open-vocabulary models. The versatility of LaserMix++ enables applications across LiDAR representations, establishing it as a universally applicable solution. Our framework is rigorously validated through theoretical analysis and extensive experiments on popular driving perception datasets. Results demonstrate that LaserMix++ markedly outperforms fully supervised alternatives, achieving comparable accuracy with five times fewer annotations and significantly improving the supervised-only baselines. This substantial advancement underscores the potential of semi-supervised approaches in reducing the reliance on extensive labeled data in LiDAR-based 3D scene understanding systems.

arxiv情報

著者 Lingdong Kong,Xiang Xu,Jiawei Ren,Wenwei Zhang,Liang Pan,Kai Chen,Wei Tsang Ooi,Ziwei Liu
発行日 2025-02-01 12:50:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク