要約
教師なし点群事前学習に対する既存のアプローチは、シーンレベルまたはポイント/ボクセルレベルのインスタンス識別に制約があります。一方、点/ボクセルレベルの手法では、大きな物体やコンテキスト環境を認識することができないため、限られた受容野に悩まされることになる。そこで我々は、領域レベルの表現が3次元物体検出に適していると考え、領域提案を対比させることで頑健な3次元表現を学習する、教師無し点群事前学習フレームワーク「ProposalContrast」を考案する。具体的には、各点群から抽出された領域提案の網羅的なセットを用いて、各提案内の幾何学的な点の関係をモデル化し、表現力豊かな提案表現を作成する。提案コントラストは、3次元検出特性に対応するため、クラスタ間および提案間の分離を最適化し、意味クラスとオブジェクトインスタンス間の提案表現の識別性を向上させる。ProposalContrastの一般性と移植性は、様々な3D検出器(すなわち、PV-RCNN、CenterPoint、PointPillars、PointRCNN)およびデータセット(すなわち、KITTI、Waymo、ONCE)上で検証される。
要約(オリジナル)
Existing approaches for unsupervised point cloud pre-training are constrained to either scene-level or point/voxel-level instance discrimination. Scene-level methods tend to lose local details that are crucial for recognizing the road objects, while point/voxel-level methods inherently suffer from limited receptive field that is incapable of perceiving large objects or context environments. Considering region-level representations are more suitable for 3D object detection, we devise a new unsupervised point cloud pre-training framework, called ProposalContrast, that learns robust 3D representations by contrasting region proposals. Specifically, with an exhaustive set of region proposals sampled from each point cloud, geometric point relations within each proposal are modeled for creating expressive proposal representations. To better accommodate 3D detection properties, ProposalContrast optimizes with both inter-cluster and inter-proposal separation, i.e., sharpening the discriminativeness of proposal representations across semantic classes and object instances. The generalizability and transferability of ProposalContrast are verified on various 3D detectors (i.e., PV-RCNN, CenterPoint, PointPillars and PointRCNN) and datasets (i.e., KITTI, Waymo and ONCE).
arxiv情報
著者 | Junbo Yin,Dingfu Zhou,Liangjun Zhang,Jin Fang,Cheng-Zhong Xu,Jianbing Shen,Wenguan Wang |
発行日 | 2022-09-02 12:21:44+00:00 |
arxivサイト | arxiv_id(pdf) |