CO^3: Cooperative Unsupervised 3D Representation Learning for Autonomous Driving

要約

屋内点群に対する教師無しコントラスト学習は大きな成功を収めている.しかし、屋外シーンにおける教師なし点群学習は、従来の手法ではシーン全体を再構成し、部分的なビューをコントラスト学習のために取り込む必要があるため、依然として困難である。これは、移動物体、障害物、センサーが存在する屋外シーンでは実行不可能である。本論文では、教師なし手法で屋外点群の3次元表現を学習するCO^3(Cooperative Contrastive Learning and Contextual Shape Prediction:協調的対比学習と文脈的形状予測)を提案する。CO^3は既存の手法と比較して、いくつかの利点がある。(1) 車両側とインフラ側のLiDAR点群を利用することで、従来手法で構築されたビューよりも適切な、十分に異なるが共通の意味情報を保持したコントラスト学習のためのビューを構築する。(2) コントラスト学習と並行して、事前学習目標として形状文脈予測を提案し、教師なし3次元点群表現学習にタスク関連情報をもたらし、学習した表現を下流の検出タスクに転送する際に有効である。(3) 従来の手法と比較して、CO^3によって学習された表現は、異なるタイプのLiDARセンサによって収集された異なる屋外シーンデータセットに転送することが可能である。(4) CO^3は、OnceとKITTIの両データセットにおいて、現在の最先端手法を最大2.58 mAP改善する。コードとモデルを公開する予定。CO^3は、屋外シーンにおけるLiDAR点群の理解を促進すると考えています。

要約(オリジナル)

Unsupervised contrastive learning for indoor-scene point clouds has achieved great successes. However, unsupervised learning point clouds in outdoor scenes remains challenging because previous methods need to reconstruct the whole scene and capture partial views for the contrastive objective. This is infeasible in outdoor scenes with moving objects, obstacles, and sensors. In this paper, we propose CO^3, namely Cooperative Contrastive Learning and Contextual Shape Prediction, to learn 3D representation for outdoor-scene point clouds in an unsupervised manner. CO^3 has several merits compared to existing methods. (1) It utilizes LiDAR point clouds from vehicle-side and infrastructure-side to build views that differ enough but meanwhile maintain common semantic information for contrastive learning, which are more appropriate than views built by previous methods. (2) Alongside the contrastive objective, shape context prediction is proposed as pre-training goal and brings more task-relevant information for unsupervised 3D point cloud representation learning, which are beneficial when transferring the learned representation to downstream detection tasks. (3) As compared to previous methods, representation learned by CO^3 is able to be transferred to different outdoor scene dataset collected by different type of LiDAR sensors. (4) CO^3 improves current state-of-the-art methods on both Once and KITTI datasets by up to 2.58 mAP. Codes and models will be released. We believe CO^3 will facilitate understanding LiDAR point clouds in outdoor scene.

arxiv情報

著者 Runjian Chen,Yao Mu,Runsen Xu,Wenqi Shao,Chenhan Jiang,Hang Xu,Zhenguo Li,Ping Luo
発行日 2022-06-08 17:37:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.RO パーマリンク