要約
このペーパーでは、3D 幾何学情報とマルチビュー画像情報を同時に活用することで、3D インスタンスのセグメンテーションの課題に取り組みます。
これまでの多くの研究では、セグメンテーションなどの深層学習技術を 3D 点群に適用してきました。
ただし、ラベル付き 3D 点群データの不足と多様性の低さにより、これらの方法はさまざまなタイプのシーンに一般化できないことがよくありました。
最近の取り組みの中には、ボトムアップ フレームワーク内で 2D インスタンスのセグメンテーションを 3D に引き上げようとするものもあります。
ビュー間の 2D インスタンス セグメンテーションの不一致により、3D セグメンテーションのパフォーマンスが大幅に低下する可能性があります。
この研究では、3D インスタンスのセグメンテーションに 2D セグメンテーション モデルを効果的に活用するための、新しい 3D から 2D へのクエリ フレームワークを導入します。
具体的には、シーンを 3D でいくつかのスーパーポイントに事前にセグメント化し、タスクをグラフ カット問題に定式化します。
スーパーポイント グラフは 2D セグメンテーション モデルに基づいて構築されており、ノードの特徴がマルチビュー画像の特徴から取得され、エッジの重みがマルチビュー セグメンテーションの結果に基づいて計算されるため、より優れた汎化能力が可能になります。
グラフを処理するには、2D セグメンテーション モデルからの疑似 3D ラベルを使用してグラフ ニューラル ネットワークをトレーニングします。
ScanNet、ScanNet++、KITTI-360 データセットの実験結果は、私たちの方法が堅牢なセグメンテーション パフォーマンスを実現し、さまざまなタイプのシーンにわたって一般化できることを示しています。
私たちのプロジェクト ページは https://zju3dv.github.io/sam_graph から入手できます。
要約(オリジナル)
This paper addresses the challenge of 3D instance segmentation by simultaneously leveraging 3D geometric and multi-view image information. Many previous works have applied deep learning techniques to 3D point clouds for instance segmentation. However, these methods often failed to generalize to various types of scenes due to the scarcity and low-diversity of labeled 3D point cloud data. Some recent works have attempted to lift 2D instance segmentations to 3D within a bottom-up framework. The inconsistency in 2D instance segmentations among views can substantially degrade the performance of 3D segmentation. In this work, we introduce a novel 3D-to-2D query framework to effectively exploit 2D segmentation models for 3D instance segmentation. Specifically, we pre-segment the scene into several superpoints in 3D, formulating the task into a graph cut problem. The superpoint graph is constructed based on 2D segmentation models, where node features are obtained from multi-view image features and edge weights are computed based on multi-view segmentation results, enabling the better generalization ability. To process the graph, we train a graph neural network using pseudo 3D labels from 2D segmentation models. Experimental results on the ScanNet, ScanNet++ and KITTI-360 datasets demonstrate that our method achieves robust segmentation performance and can generalize across different types of scenes. Our project page is available at https://zju3dv.github.io/sam_graph.
arxiv情報
著者 | Haoyu Guo,He Zhu,Sida Peng,Yuang Wang,Yujun Shen,Ruizhen Hu,Xiaowei Zhou |
発行日 | 2023-12-13 18:59:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google