SAM-guided Graph Cut for 3D Instance Segmentation

要約

本稿では、3D幾何学情報とマルチビュー画像情報を同時に活用することで、3Dインスタンスセグメンテーションの課題に取り組む。多くの先行研究が、インスタンスセグメンテーションのために3D点群にディープラーニング技術を適用してきた。しかし、これらの手法は、ラベル付けされた3D点群データの希少性と多様性の低さにより、様々なタイプのシーンに一般化できないことが多い。最近のいくつかの研究では、ボトムアップのフレームワークで2Dインスタンスセグメンテーションを3Dに持ち上げることが試みられている。ビュー間の2Dインスタンスセグメンテーションの不整合は、3Dセグメンテーションの性能を大幅に低下させる可能性がある。本研究では、3Dインスタンスセグメンテーションのために2Dセグメンテーションモデルを効果的に利用する、新しい3D-to-2Dクエリフレームワークを導入する。具体的には、シーンを3D上の複数のスーパーポイントに事前にセグメンテーションし、タスクをグラフカット問題に定式化する。スーパーポイントグラフは2Dセグメンテーションモデルに基づいて構築され、ノード特徴はマルチビュー画像特徴から得られ、エッジの重みはマルチビューセグメンテーション結果に基づいて計算される。このグラフを処理するために、2Dセグメンテーションモデルから得られた擬似3Dラベルを用いてグラフニューラルネットワークを学習する。ScanNet、ScanNet++、KITTI-360データセットでの実験結果は、我々の手法が頑健なセグメンテーション性能を達成し、異なるタイプのシーンに汎化できることを示している。我々のプロジェクトページはhttps://zju3dv.github.io/sam_graph。

要約(オリジナル)

This paper addresses the challenge of 3D instance segmentation by simultaneously leveraging 3D geometric and multi-view image information. Many previous works have applied deep learning techniques to 3D point clouds for instance segmentation. However, these methods often failed to generalize to various types of scenes due to the scarcity and low-diversity of labeled 3D point cloud data. Some recent works have attempted to lift 2D instance segmentations to 3D within a bottom-up framework. The inconsistency in 2D instance segmentations among views can substantially degrade the performance of 3D segmentation. In this work, we introduce a novel 3D-to-2D query framework to effectively exploit 2D segmentation models for 3D instance segmentation. Specifically, we pre-segment the scene into several superpoints in 3D, formulating the task into a graph cut problem. The superpoint graph is constructed based on 2D segmentation models, where node features are obtained from multi-view image features and edge weights are computed based on multi-view segmentation results, enabling the better generalization ability. To process the graph, we train a graph neural network using pseudo 3D labels from 2D segmentation models. Experimental results on the ScanNet, ScanNet++ and KITTI-360 datasets demonstrate that our method achieves robust segmentation performance and can generalize across different types of scenes. Our project page is available at https://zju3dv.github.io/sam_graph.

arxiv情報

著者 Haoyu Guo,He Zhu,Sida Peng,Yuang Wang,Yujun Shen,Ruizhen Hu,Xiaowei Zhou
発行日 2024-08-02 09:56:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク