OpenIns3D: Snap and Lookup for 3D Open-vocabulary Instance Segmentation

要約

現在の 3D オープンボキャブラリーシーンの理解方法は、主に、言語を使用して 3D 特徴を学習するための橋渡しとして、適切に位置合わせされた 2D 画像を利用します。
ただし、2D 画像が存在しないシナリオでは、これらのアプローチを適用することが困難になります。
この研究では、インスタンス レベルで 3D オープン語彙シーンを理解するために、2D 画像入力を必要としないまったく新しいパイプライン OpenIns3D を導入します。
OpenIns3D フレームワークは、「Mask-Snap-Lookup」スキームを採用しています。
「マスク」モジュールは、3D 点群でのクラスに依存しないマスク提案を学習します。
「スナップ」モジュールは、複数のスケールでシーンレベルの合成画像を生成し、2D ビジョン言語モデルを活用して興味深いオブジェクトを抽出します。
「Lookup」モジュールは、3D マスクと合成画像間の正確な対応関係を含む Mask2Pixel マップを使用して「Snap」の結果を検索し、提案されたマスクにカテゴリ名を割り当てます。
この 2D 入力不要でトレーニングが容易で柔軟なアプローチにより、屋内および屋外の幅広いデータセットで最先端の結果が得られ、大きなマージンが得られました。
さらに、OpenIns3D を使用すると、再トレーニングせずに 2D 検出器を簡単に切り替えることができます。
ODISE や GroundingDINO などの最先端の 2D オープンワールド モデルと統合すると、オープン語彙インスタンス セグメンテーションで優れた結果が観察されます。
LISA などの LLM を利用した 2D モデルと統合すると、複雑な推論や世界の知識を必要とするものなど、非常に複雑なテキスト クエリを処理する優れた能力が実証されます。
プロジェクトページ: https://zheninghuang.github.io/OpenIns3D/

要約(オリジナル)

Current 3D open-vocabulary scene understanding methods mostly utilize well-aligned 2D images as the bridge to learn 3D features with language. However, applying these approaches becomes challenging in scenarios where 2D images are absent. In this work, we introduce a completely new pipeline, namely, OpenIns3D, which requires no 2D image inputs, for 3D open-vocabulary scene understanding at the instance level. The OpenIns3D framework employs a ‘Mask-Snap-Lookup’ scheme. The ‘Mask’ module learns class-agnostic mask proposals in 3D point clouds. The ‘Snap’ module generates synthetic scene-level images at multiple scales and leverages 2D vision language models to extract interesting objects. The ‘Lookup’ module searches through the outcomes of ‘Snap’ with the help of Mask2Pixel maps, which contain the precise correspondence between 3D masks and synthetic images, to assign category names to the proposed masks. This 2D input-free, easy-to-train, and flexible approach achieved state-of-the-art results on a wide range of indoor and outdoor datasets with a large margin. Furthermore, OpenIns3D allows for effortless switching of 2D detectors without re-training. When integrated with state-of-the-art 2D open-world models such as ODISE and GroundingDINO, superb results are observed on open-vocabulary instance segmentation. When integrated with LLM-powered 2D models like LISA, it demonstrates a remarkable capacity to process highly complex text queries, including those that require intricate reasoning and world knowledge. Project page: https://zheninghuang.github.io/OpenIns3D/

arxiv情報

著者 Zhening Huang,Xiaoyang Wu,Xi Chen,Hengshuang Zhao,Lei Zhu,Joan Lasenby
発行日 2023-09-04 17:59:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク