SA3DIP: Segment Any 3D Instance with Potential 3D Priors

要約

2D 基礎モデルの急増により、それをオープンワールドの 3D インスタンス セグメンテーションに適応させる研究が活発化しています。
最近の手法では、スーパーポイントを幾何学的プリミティブとして活用し、マージ ガイダンスとしてセグメント エニシング モデル (SAM) の 2D マルチビュー マスクを組み込むパラダイムが導入され、優れたゼロショット インスタンス セグメンテーションの結果が得られます。
ただし、3D 事前分布の使用が制限されているため、セグメンテーションのパフォーマンスが制限されます。
以前の方法では、空間座標から推定された法線のみに基づいて 3D スーパーポイントが計算されるため、同様のジオメトリを持つインスタンスのセグメント化が不十分になります。
さらに、SAM と 2D 空間での手作りのアルゴリズムへの依存度が高いため、SAM 固有のパーツレベルのセグメンテーション傾向により、過剰セグメンテーションが発生します。
これらの問題に対処するために、潜在的な 3D 事前分布を利用して任意の 3D インスタンスをセグメント化する新しい方法である SA3DIP を提案します。
具体的には、一方では、幾何学的な事前分布とテクスチャの事前分布の両方に基づいて相補的な 3D プリミティブを生成し、後続の手順で蓄積される初期エラーを削減します。
一方、3D 検出器を使用して 3D 空間から補足的な制約を導入し、さらなる結合プロセスをガイドします。
さらに、ScanNetV2 ベンチマークにはかなりの部分の低品質のグラウンド トゥルース アノテーションが含まれており、公正な評価に影響を与えていることがわかりました。
したがって、ScanNetV2-INS に完全なグラウンド トゥルース ラベルを提供し、3D クラスに依存しないインスタンス セグメンテーション用の追加インスタンスを補足します。
さまざまな 2D ~ 3D データセットに対する実験的評価により、私たちのアプローチの有効性と堅牢性が実証されています。
私たちのコードと提案されている ScanNetV2-INS データセットはここから入手できます。

要約(オリジナル)

The proliferation of 2D foundation models has sparked research into adapting them for open-world 3D instance segmentation. Recent methods introduce a paradigm that leverages superpoints as geometric primitives and incorporates 2D multi-view masks from Segment Anything model (SAM) as merging guidance, achieving outstanding zero-shot instance segmentation results. However, the limited use of 3D priors restricts the segmentation performance. Previous methods calculate the 3D superpoints solely based on estimated normal from spatial coordinates, resulting in under-segmentation for instances with similar geometry. Besides, the heavy reliance on SAM and hand-crafted algorithms in 2D space suffers from over-segmentation due to SAM’s inherent part-level segmentation tendency. To address these issues, we propose SA3DIP, a novel method for Segmenting Any 3D Instances via exploiting potential 3D Priors. Specifically, on one hand, we generate complementary 3D primitives based on both geometric and textural priors, which reduces the initial errors that accumulate in subsequent procedures. On the other hand, we introduce supplemental constraints from the 3D space by using a 3D detector to guide a further merging process. Furthermore, we notice a considerable portion of low-quality ground truth annotations in ScanNetV2 benchmark, which affect the fair evaluations. Thus, we present ScanNetV2-INS with complete ground truth labels and supplement additional instances for 3D class-agnostic instance segmentation. Experimental evaluations on various 2D-3D datasets demonstrate the effectiveness and robustness of our approach. Our code and proposed ScanNetV2-INS dataset are available HERE.

arxiv情報

著者 Xi Yang,Xu Gu,Xingyilang Yin,Xinbo Gao
発行日 2024-11-06 10:39:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク