要約
対照学習は最近、3D シーン理解タスクにおける教師なし事前トレーニングに大きな可能性を示すことが実証されました。
ただし、既存の作業のほとんどは、コントラストを構築する際にポイント フィーチャをアンカーとしてランダムに選択するため、3D シーンで多くを占める背景ポイントへの明らかな偏りが生じます。
また、オブジェクトの認識と前景と背景の区別が無視されるため、対比学習の効果が低くなります。
これらの問題に取り組むために、事前トレーニングでより効果的な点群表現を学習するための一般的な前景認識特徴コントラスト (FAC) フレームワークを提案します。
FAC は、より効果的で有益なコントラスト ペアを構築するための 2 つの新しいコントラスト デザインで構成されています。
1 つ目は、ポイントが同じセマンティクスを持つ傾向がある同じ前景セグメント内で正のペアを構築することです。
2 つ目は、点群ビュー内および点群ビュー間での特徴相関を効果的に適応的に学習するシャム対応ネットワークの適応特徴学習により、3D セグメント/オブジェクト間の過剰な識別を防止し、セグメント レベルでの前景と背景の区別を促進することです。
ポイント アクティベーション マップを使用した視覚化は、事前トレーニング中にコントラスト ペアが前景領域間の明確な対応を捉えていることを示しています。
定量的実験では、FAC がさまざまな下流の 3D セマンティック セグメンテーションおよびオブジェクト検出タスクにおいて優れた知識伝達とデータ効率を達成することも示しています。
要約(オリジナル)
Contrastive learning has recently demonstrated great potential for unsupervised pre-training in 3D scene understanding tasks. However, most existing work randomly selects point features as anchors while building contrast, leading to a clear bias toward background points that often dominate in 3D scenes. Also, object awareness and foreground-to-background discrimination are neglected, making contrastive learning less effective. To tackle these issues, we propose a general foreground-aware feature contrast (FAC) framework to learn more effective point cloud representations in pre-training. FAC consists of two novel contrast designs to construct more effective and informative contrast pairs. The first is building positive pairs within the same foreground segment where points tend to have the same semantics. The second is that we prevent over-discrimination between 3D segments/objects and encourage foreground-to-background distinctions at the segment level with adaptive feature learning in a Siamese correspondence network, which adaptively learns feature correlations within and across point cloud views effectively. Visualization with point activation maps shows that our contrast pairs capture clear correspondences among foreground regions during pre-training. Quantitative experiments also show that FAC achieves superior knowledge transfer and data efficiency in various downstream 3D semantic segmentation and object detection tasks.
arxiv情報
著者 | Kangcheng Liu,Aoran Xiao,Xiaoqin Zhang,Shijian Lu,Ling Shao |
発行日 | 2023-07-11 12:15:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google