Self-supervised Learning of LiDAR 3D Point Clouds via 2D-3D Neural Calibration

要約

この論文では、自動運転シーンにおける 3D 知覚を強化するための新しい自己教師あり学習フレームワークを紹介します。
具体的には、私たちのアプローチ、つまり NCLR は、2D-3D ニューラル キャリブレーション、つまり剛体姿勢調整カメラと LiDAR 座標系を推定する新しい口実タスクに焦点を当てています。
まず、画像データと点群データの間の領域ギャップを埋めるための学習可能な変換アライメントを提案し、効果的な比較とマッチングのために特徴を統一表現空間に変換します。
次に、画像とフィーチャが融合された点群との間の重複領域を特定します。
第三に、密な 2D-3D 対応関係を確立して、剛体姿勢を推定します。
このフレームワークは、点からピクセルまでのきめ細かいマッチングを学習するだけでなく、全体的なレベルで画像と点群の位置合わせを実現し、それらの相対的な姿勢を理解します。
事前トレーニングされたバックボーンを、LiDAR ベースの 3D セマンティック セグメンテーション、物体検出、パノプティック セグメンテーションなどの下流タスクに適用することで、NCLR の有効性を実証します。
さまざまなデータセットに対する包括的な実験により、既存の自己教師あり手法に対する NCLR の優位性が示されています。
その結果、さまざまなモダリティからの共同学習により、ネットワークの理解能力と学習された表現の有効性が大幅に向上することが確認されました。
コードは https://github.com/Eaphan/NCLR で公開されています。

要約(オリジナル)

This paper introduces a novel self-supervised learning framework for enhancing 3D perception in autonomous driving scenes. Specifically, our approach, namely NCLR, focuses on 2D-3D neural calibration, a novel pretext task that estimates the rigid pose aligning camera and LiDAR coordinate systems. First, we propose the learnable transformation alignment to bridge the domain gap between image and point cloud data, converting features into a unified representation space for effective comparison and matching. Second, we identify the overlapping area between the image and point cloud with the fused features. Third, we establish dense 2D-3D correspondences to estimate the rigid pose. The framework not only learns fine-grained matching from points to pixels but also achieves alignment of the image and point cloud at a holistic level, understanding their relative pose. We demonstrate the efficacy of NCLR by applying the pre-trained backbone to downstream tasks, such as LiDAR-based 3D semantic segmentation, object detection, and panoptic segmentation. Comprehensive experiments on various datasets illustrate the superiority of NCLR over existing self-supervised methods. The results confirm that joint learning from different modalities significantly enhances the network’s understanding abilities and effectiveness of learned representation. The code is publicly available at https://github.com/Eaphan/NCLR.

arxiv情報

著者 Yifan Zhang,Siyu Ren,Junhui Hou,Jinjian Wu,Yixuan Yuan,Guangming Shi
発行日 2024-10-16 14:19:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク