要約
現在の3Dオープンボキャブラリーシーン理解手法は、言語による3D特徴を学習するためのブリッジとして、整列された2D画像を利用することがほとんどである。しかし、2D画像が存在しないシナリオでは、これらのアプローチを適用することは困難である。本研究では、インスタンスレベルでの3Dオープンボキャブラリーシーン理解のために、2D画像入力を必要としない全く新しいパイプライン、すなわちOpenIns3Dを導入する。OpenIns3Dフレームワークは「Mask-Snap-Lookup」スキームを採用している。Mask’モジュールは、3D点群におけるクラスにとらわれないマスク提案を学習する。Snap」モジュールは、複数のスケールでシーンレベルの合成画像を生成し、2Dビジョン言語モデルを活用して興味深いオブジェクトを抽出する。Lookup’モジュールは、3Dマスクと合成画像間の正確な対応関係を含むMask2Pixelマップの助けを借りて、’Snap’の結果を検索し、提案されたマスクにカテゴリ名を割り当てる。この2次元入力不要、学習容易、柔軟なアプローチは、屋内外の幅広いデータセットにおいて、大きなマージンをもって最先端の結果を達成した。さらに、OpenIns3Dは、再トレーニングなしで、2D検出器を簡単に切り替えることができる。ODISEやGroundingDINOのような最先端の2Dオープンワールドモデルと統合した場合、オープンボキャブラリーインスタンスのセグメンテーションにおいて優れた結果が得られた。LISAのようなLLMを搭載した2Dモデルと統合した場合、複雑な推論や世界知識を必要とするものを含む、非常に複雑なテキストクエリを処理する驚くべき能力を示す。コードとモデルは一般に公開される予定である。
要約(オリジナル)
Current 3D open-vocabulary scene understanding methods mostly utilize well-aligned 2D images as the bridge to learn 3D features with language. However, applying these approaches becomes challenging in scenarios where 2D images are absent. In this work, we introduce a completely new pipeline, namely, OpenIns3D, which requires no 2D image inputs, for 3D open-vocabulary scene understanding at the instance level. The OpenIns3D framework employs a ‘Mask-Snap-Lookup’ scheme. The ‘Mask’ module learns class-agnostic mask proposals in 3D point clouds. The ‘Snap’ module generates synthetic scene-level images at multiple scales and leverages 2D vision language models to extract interesting objects. The ‘Lookup’ module searches through the outcomes of ‘Snap’ with the help of Mask2Pixel maps, which contain the precise correspondence between 3D masks and synthetic images, to assign category names to the proposed masks. This 2D input-free, easy-to-train, and flexible approach achieved state-of-the-art results on a wide range of indoor and outdoor datasets with a large margin. Furthermore, OpenIns3D allows for effortless switching of 2D detectors without re-training. When integrated with state-of-the-art 2D open-world models such as ODISE and GroundingDINO, superb results are observed on open-vocabulary instance segmentation. When integrated with LLM-powered 2D models like LISA, it demonstrates a remarkable capacity to process highly complex text queries, including those that require intricate reasoning and world knowledge. The code and model will be made publicly available.
arxiv情報
著者 | Zhening Huang,Xiaoyang Wu,Xi Chen,Hengshuang Zhao,Lei Zhu,Joan Lasenby |
発行日 | 2023-09-01 17:59:56+00:00 |
arxivサイト | arxiv_id(pdf) |