Generalized 3D Self-supervised Learning Framework via Prompted Foreground-Aware Feature Contrast

要約

コントラスト学習は近年、3Dシーン理解タスクにおける教師なし事前学習に大きな可能性を示している。しかし、既存の研究のほとんどは、コントラストを構築する際にアンカーとして点特徴をランダムに選択するため、3Dシーンでしばしば支配的となる背景点への明らかな偏りが生じる。また、物体認識や前景と背景の識別が無視されているため、コントラスト学習が効果的でない。これらの問題に取り組むため、我々は、事前学習においてより効果的な点群表現を学習するための、一般的な前景認識特徴コントラストFAC++フレームワークを提案する。FAC++は、より効果的で情報量の多いコントラストペアを構築するための2つの新しいコントラストデザインから構成される。1つ目は、点が同じセマンティクスを持つ傾向がある同じ前景セグメント内で正のペアを構築することである。2つ目は、3Dセグメント/オブジェクト間の過剰識別を防ぎ、シャム対応ネットワークにおける適応的特徴学習により、セグメントレベルでのグループ化された前景/背景の区別を促すことである。さらに、FAC++と呼ばれる、よりバランスの取れた前景認識学習を強化するために、前景促成領域サンプリングを設計した。点活性化マップを用いた可視化により、我々のコントラストペアが、事前学習中に前景領域間の明確な対応を捉えていることが示された。また、定量的な実験により、FAC++が、様々な下流の3D意味分割、インスタンス分割、物体検出タスクにおいて、優れた知識伝達とデータ効率を達成することが示される。すべてのコード、データ、モデルは、https://github.com/KangchengLiu/FAC_Foreground_Aware_Contrast。

要約(オリジナル)

Contrastive learning has recently demonstrated great potential for unsupervised pre-training in 3D scene understanding tasks. However, most existing work randomly selects point features as anchors while building contrast, leading to a clear bias toward background points that often dominate in 3D scenes. Also, object awareness and foreground-to-background discrimination are neglected, making contrastive learning less effective. To tackle these issues, we propose a general foreground-aware feature contrast FAC++ framework to learn more effective point cloud representations in pre-training. FAC++ consists of two novel contrast designs to construct more effective and informative contrast pairs. The first is building positive pairs within the same foreground segment where points tend to have the same semantics. The second is that we prevent over-discrimination between 3D segments/objects and encourage grouped foreground-to-background distinctions at the segment level with adaptive feature learning in a Siamese correspondence network, which adaptively learns feature correlations within and across point cloud views effectively. Moreover, we have designed the foreground-prompted regional sampling to enhance more balanced foreground-aware learning, which is termed FAC++. Visualization with point activation maps shows that our contrast pairs capture clear correspondences among foreground regions during pre-training. Quantitative experiments also show that FAC++ achieves superior knowledge transfer and data efficiency in various downstream 3D semantic segmentation, instance segmentation as well as object detection tasks. All codes, data, and models are available at: https://github.com/KangchengLiu/FAC_Foreground_Aware_Contrast

arxiv情報

著者 Kangcheng Liu,Xinhu Zheng,Chaoqun Wang,Kai Tang,Ming Liu,Baoquan Chen
発行日 2023-12-01 15:52:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク