OpenMask3D: Open-Vocabulary 3D Instance Segmentation

要約

オープンボキャブラリーの 3D インスタンスセグメンテーションのタスクを紹介します。
3D インスタンス セグメンテーションの現在のアプローチは、通常、トレーニング データセットで注釈が付けられている、事前定義された閉じたクラスのセットからオブジェクト カテゴリのみを認識できます。
このため、さまざまなオブジェクトに関連する斬新でオープンな語彙クエリに基づいてタスクを実行する必要がある現実世界のアプリケーションに重要な制限が生じます。
最近、シーン内の各ポイントのクエリ可能な特徴を学習することでこの問題に対処する、オープンボキャブラリーの 3D シーン理解方法が登場しました。
このような表現を直接使用してセマンティック セグメンテーションを実行することはできますが、既存の方法では複数のオブジェクト インスタンスを分離できません。
この研究では、この制限に対処し、オープン語彙 3D インスタンス セグメンテーションのゼロショット アプローチである OpenMask3D を提案します。
予測されたクラスに依存しない 3D インスタンス マスクに基づいて、私たちのモデルは、CLIP ベースの画像埋め込みのマルチビュー融合を介してマスクごとの特徴を集約します。
ScanNet200 と Replica に関する実験とアブレーション研究では、OpenMask3D が、特にロングテール分布において他のオープンボキャブラリー手法よりも優れていることが示されています。
定性的な実験では、形状、アフォーダンス、マテリアルを記述する自由形式のクエリに基づいてオブジェクトのプロパティをセグメント化する OpenMask3D の機能をさらに実証します。

要約(オリジナル)

We introduce the task of open-vocabulary 3D instance segmentation. Current approaches for 3D instance segmentation can typically only recognize object categories from a pre-defined closed set of classes that are annotated in the training datasets. This results in important limitations for real-world applications where one might need to perform tasks guided by novel, open-vocabulary queries related to a wide variety of objects. Recently, open-vocabulary 3D scene understanding methods have emerged to address this problem by learning queryable features for each point in the scene. While such a representation can be directly employed to perform semantic segmentation, existing methods cannot separate multiple object instances. In this work, we address this limitation, and propose OpenMask3D, which is a zero-shot approach for open-vocabulary 3D instance segmentation. Guided by predicted class-agnostic 3D instance masks, our model aggregates per-mask features via multi-view fusion of CLIP-based image embeddings. Experiments and ablation studies on ScanNet200 and Replica show that OpenMask3D outperforms other open-vocabulary methods, especially on the long-tail distribution. Qualitative experiments further showcase OpenMask3D’s ability to segment object properties based on free-form queries describing geometry, affordances, and materials.

arxiv情報

著者 Ayça Takmaz,Elisabetta Fedele,Robert W. Sumner,Marc Pollefeys,Federico Tombari,Francis Engelmann
発行日 2023-10-29 14:04:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク