要約
現在の 3D オープンボキャブラリーシーンの理解方法は、主に、言語を使用して 3D 特徴を学習するための橋渡しとして、適切に位置合わせされた 2D 画像を利用します。
ただし、2D 画像が存在しないシナリオでは、これらのアプローチを適用することが困難になります。
この研究では、インスタンス レベルで 3D オープン語彙シーンを理解するために、2D 画像入力を必要としない新しいパイプライン OpenIns3D を導入します。
OpenIns3D フレームワークは、「Mask-Snap-Lookup」スキームを採用しています。
「マスク」モジュールは、3D 点群でのクラスに依存しないマスク提案を学習します。
「スナップ」モジュールは、複数のスケールでシーンレベルの合成画像を生成し、2D ビジョン言語モデルを活用して興味深いオブジェクトを抽出します。
「Lookup」モジュールは、3D マスクと合成画像間の正確な対応関係を含む Mask2Pixel マップを使用して「Snap」の結果を検索し、提案されたマスクにカテゴリ名を割り当てます。
この 2D 入力不要の柔軟なアプローチにより、屋内および屋外の幅広いデータセットで最先端の結果が大幅に得られます。
さらに、OpenIns3D を使用すると、再トレーニングせずに 2D 検出器を簡単に切り替えることができます。
ODISE や GroundingDINO などの強力な 2D オープンワールド モデルと統合すると、オープン語彙インスタンス セグメンテーションで優れた結果が観察されました。
LISA などの LLM を利用した 2D モデルと統合すると、複雑な推論と世界の知識を必要とする非常に複雑なテキスト クエリを処理する優れた能力が実証されます。
プロジェクトページ: https://zheninghuang.github.io/OpenIns3D/
要約(オリジナル)
Current 3D open-vocabulary scene understanding methods mostly utilize well-aligned 2D images as the bridge to learn 3D features with language. However, applying these approaches becomes challenging in scenarios where 2D images are absent. In this work, we introduce a new pipeline, namely, OpenIns3D, which requires no 2D image inputs, for 3D open-vocabulary scene understanding at the instance level. The OpenIns3D framework employs a ‘Mask-Snap-Lookup’ scheme. The ‘Mask’ module learns class-agnostic mask proposals in 3D point clouds. The ‘Snap’ module generates synthetic scene-level images at multiple scales and leverages 2D vision language models to extract interesting objects. The ‘Lookup’ module searches through the outcomes of ‘Snap’ with the help of Mask2Pixel maps, which contain the precise correspondence between 3D masks and synthetic images, to assign category names to the proposed masks. This 2D input-free and flexible approach achieves state-of-the-art results on a wide range of indoor and outdoor datasets by a large margin. Moreover, OpenIns3D allows for effortless switching of 2D detectors without re-training. When integrated with powerful 2D open-world models such as ODISE and GroundingDINO, excellent results were observed on open-vocabulary instance segmentation. When integrated with LLM-powered 2D models like LISA, it demonstrates a remarkable capacity to process highly complex text queries which require intricate reasoning and world knowledge. Project page: https://zheninghuang.github.io/OpenIns3D/
arxiv情報
著者 | Zhening Huang,Xiaoyang Wu,Xi Chen,Hengshuang Zhao,Lei Zhu,Joan Lasenby |
発行日 | 2023-10-05 15:15:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google