要約
点群のセマンティック セグメンテーションには、通常、人間による注釈の骨の折れる作業が必要となるため、ラベルのない形式または弱い形式の注釈から学習するという難しいテーマに広く注目を集めています。
この論文では、点群の完全に教師なしのセマンティック セグメンテーションの最初の試みを行います。これは、いかなる注釈も付けずに意味的に意味のあるオブジェクトを描写することを目的としています。
2D 画像に対する教師なしパイプラインの以前の作業は、次の理由により、点群のこのタスクでは失敗します。 1) 限られた量のデータと不均衡なクラス分布によって引き起こされるクラスタリングの曖昧さ。
2) 不規則性 点群の不規則なまばらさによって引き起こされる曖昧さ。
したがって、我々は、前述の問題をそれぞれ処理するクロスモーダル蒸留 (CMD) とスーパーボクセル クラスタリング (SVC) の 2 つのステップで構成される新しいフレームワーク PointDC を提案します。
CMD の最初の段階では、マルチビューの視覚特徴が 3D 空間に逆投影され、統一されたポイント特徴に集約されて、ポイント表現のトレーニングが抽出されます。
SVC の第 2 段階では、ポイント フィーチャがスーパー ボクセルに集約され、セマンティック クラスを発掘するための反復クラスタリング プロセスに供給されます。
PointDC は、ScanNet-v2 (+18.4 mIoU) と S3DIS (+11.5 mIoU) のセマンティック セグメンテーション ベンチマークの両方で、従来の最先端の教師なし手法と比較して大幅な改善をもたらしました。
要約(オリジナル)
Semantic segmentation of point clouds usually requires exhausting efforts of human annotations, hence it attracts wide attention to the challenging topic of learning from unlabeled or weaker forms of annotations. In this paper, we take the first attempt for fully unsupervised semantic segmentation of point clouds, which aims to delineate semantically meaningful objects without any form of annotations. Previous works of unsupervised pipeline on 2D images fails in this task of point clouds, due to: 1) Clustering Ambiguity caused by limited magnitude of data and imbalanced class distribution; 2) Irregularity Ambiguity caused by the irregular sparsity of point cloud. Therefore, we propose a novel framework, PointDC, which is comprised of two steps that handle the aforementioned problems respectively: Cross-Modal Distillation (CMD) and Super-Voxel Clustering (SVC). In the first stage of CMD, multi-view visual features are back-projected to the 3D space and aggregated to a unified point feature to distill the training of the point representation. In the second stage of SVC, the point features are aggregated to super-voxels and then fed to the iterative clustering process for excavating semantic classes. PointDC yields a significant improvement over the prior state-of-the-art unsupervised methods, on both the ScanNet-v2 (+18.4 mIoU) and S3DIS (+11.5 mIoU) semantic segmentation benchmarks.
arxiv情報
著者 | Zisheng Chen,Hongbin Xu,Weitao Chen,Zhipeng Zhou,Haihong Xiao,Baigui Sun,Xuansong Xie,Wenxiong Kang |
発行日 | 2024-01-02 14:32:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google