Open-Ended 3D Point Cloud Instance Segmentation

要約

Open-Vocab 3D インスタンス セグメンテーション手法 (OV-3DIS) は、目に見えないオブジェクトを一般化する能力を最近実証しました。
ただし、これらのメソッドはテスト中に依然として事前定義されたクラス名に依存するため、エージェントの自律性が制限されます。
この制約を軽減するために、オープンエンド 3D インスタンス セグメンテーション (OE-3DIS) と呼ばれる新しい問題を提案します。これにより、テスト中に事前定義されたクラス名が不要になります。
さらに、OV-3DIS アプローチから派生し、2D マルチモーダル大規模言語モデルを活用して、強力なベースラインの包括的なセットを提供します。
OE-3DIS システムのパフォーマンスを評価するために、標準の AP スコアと並行して、予測マスクとそれに関連するクラス名の意味的および幾何学的品質の両方を評価する新しいオープンエンド スコアを導入します。
私たちのアプローチは、ScanNet200 および ScanNet++ データセットのベースラインに比べてパフォーマンスが大幅に向上していることを示しています。
驚くべきことに、私たちのメソッドは、グラウンド トゥルース オブジェクト クラス名がない場合でも、OV-3DIS の現在の最先端メソッドである Open3DIS のパフォーマンスを上回っています。

要約(オリジナル)

Open-Vocab 3D Instance Segmentation methods (OV-3DIS) have recently demonstrated their ability to generalize to unseen objects. However, these methods still depend on predefined class names during testing, restricting the autonomy of agents. To mitigate this constraint, we propose a novel problem termed Open-Ended 3D Instance Segmentation (OE-3DIS), which eliminates the necessity for predefined class names during testing. Moreover, we contribute a comprehensive set of strong baselines, derived from OV-3DIS approaches and leveraging 2D Multimodal Large Language Models. To assess the performance of our OE-3DIS system, we introduce a novel Open-Ended score, evaluating both the semantic and geometric quality of predicted masks and their associated class names, alongside the standard AP score. Our approach demonstrates significant performance improvements over the baselines on the ScanNet200 and ScanNet++ datasets. Remarkably, our method surpasses the performance of Open3DIS, the current state-of-the-art method in OV-3DIS, even in the absence of ground-truth object class names.

arxiv情報

著者 Phuc D. A. Nguyen,Minh Luu,Anh Tran,Cuong Pham,Khoi Nguyen
発行日 2024-08-21 16:14:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク