要約
3D セグメンテーションはコンピュータ ビジョンの中核的な問題であり、他の多くの高密度予測タスクと同様に、適切なトレーニングには大量の注釈付きデータが必要です。
ただし、完全教師付きトレーニングを採用するために 3D 点群に高密度にラベルを付けるのは、依然として労働集約的でコストがかかりすぎます。
半教師ありトレーニングは、より実用的な代替手段を提供します。この場合、少数のラベル付きデータ セットのみが与えられ、さらに大きなラベルなしセットが与えられます。
したがって、この分野では、アノテーションの欠如によって生じるパフォーマンスのギャップを削減するために、ラベルのないデータを効果的に使用する方法を研究します。
この研究では、ベイジアン深層学習に触発されて、最初に半教師あり 3D セマンティック セグメンテーションのためのベイジアン自己トレーニング フレームワークを提案します。
確率的推論を使用して、疑似ラベルの初期セットを生成し、推定された点ごとの不確実性に基づいてこれらをフィルタリングします。
ヒューリスティックな $n$-partite マッチング アルゴリズムを構築することで、この方法を半教師あり 3D インスタンス セグメンテーションに拡張し、最終的には同じ構成要素を使用して、高密度の 3D 視覚基盤に拡張します。
3D セマンティック セグメンテーションでは SemanticKITTI と ScribbleKITTI、3D インスタンス セグメンテーションでは ScanNet と S3DIS で、半教師ありメソッドの最先端の結果を実証します。
さらに、ScanRefer の監視のみのベースラインに比べて、密な 3D 視覚的基盤が大幅に改善されました。
私たちのプロジェクト ページは ouenal.github.io/bst/ で入手できます。
要約(オリジナル)
3D segmentation is a core problem in computer vision and, similarly to many other dense prediction tasks, it requires large amounts of annotated data for adequate training. However, densely labeling 3D point clouds to employ fully-supervised training remains too labor intensive and expensive. Semi-supervised training provides a more practical alternative, where only a small set of labeled data is given, accompanied by a larger unlabeled set. This area thus studies the effective use of unlabeled data to reduce the performance gap that arises due to the lack of annotations. In this work, inspired by Bayesian deep learning, we first propose a Bayesian self-training framework for semi-supervised 3D semantic segmentation. Employing stochastic inference, we generate an initial set of pseudo-labels and then filter these based on estimated point-wise uncertainty. By constructing a heuristic $n$-partite matching algorithm, we extend the method to semi-supervised 3D instance segmentation, and finally, with the same building blocks, to dense 3D visual grounding. We demonstrate state-of-the-art results for our semi-supervised method on SemanticKITTI and ScribbleKITTI for 3D semantic segmentation and on ScanNet and S3DIS for 3D instance segmentation. We further achieve substantial improvements in dense 3D visual grounding over supervised-only baselines on ScanRefer. Our project page is available at ouenal.github.io/bst/.
arxiv情報
著者 | Ozan Unal,Christos Sakaridis,Luc Van Gool |
発行日 | 2024-09-12 14:54:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google