Leveraging Large-Scale Pretrained Vision Foundation Models for Label-Efficient 3D Point Cloud Segmentation

要約

近年、Segment-Anything Model (SAM)やContrastive Language-Image Pre-training (CLIP)などの大規模な事前学習済みモデルが目覚ましい成功を収め、コンピュータビジョンの分野に革命をもたらした。これらの基礎的なビジョンモデルは、膨大なモデルパラメータを持つ大規模な広範なデータから知識を効果的に取り込み、追加のトレーニングなしで、以前に見たことのないデータに対してゼロショットのセグメンテーションを実行することを可能にする。これらのモデルは、2次元のタスクにおいて能力を発揮する一方で、3次元のシーン理解を向上させる可能性は、比較的未開拓のままである。この目的のために、我々は3D点群セグメンテーションタスクに様々な基礎モデルを適応させる、新しいフレームワークを提示する。我々のアプローチでは、様々な大規模視覚モデルを用いて、2D意味マスクの初期予測を行う。次に、RGB-Dビデオシーケンスの様々なフレームから、これらのマスク予測を3D空間に投影する。ロバストな3次元意味擬似ラベルを生成するために、投票によって全ての結果を効果的に結合する意味ラベル融合戦略を導入する。我々は、ゼロショット学習や、疎な2D点ラベルからの限定的なガイダンスなど、様々なシナリオを検証し、異なるビジョン基礎モデルの長所と短所を評価する。我々のアプローチは、3D屋内シーンのScanNetデータセットで実験され、その結果は、3D点群セグメンテーションタスクを解決する上で、一般的な2D基礎モデルを採用することの有効性を示す。

要約(オリジナル)

Recently, large-scale pre-trained models such as Segment-Anything Model (SAM) and Contrastive Language-Image Pre-training (CLIP) have demonstrated remarkable success and revolutionized the field of computer vision. These foundation vision models effectively capture knowledge from a large-scale broad data with their vast model parameters, enabling them to perform zero-shot segmentation on previously unseen data without additional training. While they showcase competence in 2D tasks, their potential for enhancing 3D scene understanding remains relatively unexplored. To this end, we present a novel framework that adapts various foundational models for the 3D point cloud segmentation task. Our approach involves making initial predictions of 2D semantic masks using different large vision models. We then project these mask predictions from various frames of RGB-D video sequences into 3D space. To generate robust 3D semantic pseudo labels, we introduce a semantic label fusion strategy that effectively combines all the results via voting. We examine diverse scenarios, like zero-shot learning and limited guidance from sparse 2D point labels, to assess the pros and cons of different vision foundation models. Our approach is experimented on ScanNet dataset for 3D indoor scenes, and the results demonstrate the effectiveness of adopting general 2D foundation models on solving 3D point cloud segmentation tasks.

arxiv情報

著者 Shichao Dong,Fayao Liu,Guosheng Lin
発行日 2023-11-03 15:41:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク