要約
この研究では、3D オープンボキャブラリーシーンを理解するための新しい 3D 入力専用フレームワークである OpenIns3D を紹介します。
OpenIns3D フレームワークは、「Mask-Snap-Lookup」スキームを採用しています。
「マスク」モジュールは 3D 点群でクラスに依存しないマスク提案を学習し、「スナップ」モジュールは複数のスケールでシーンレベルの合成画像を生成し、2D ビジョン言語モデルを活用して興味深いオブジェクトを抽出します。「ルックアップ」モジュールは以下を検索します。
提案されたマスクにカテゴリ名を割り当てる「スナップ」の結果。
このアプローチはシンプルですが、屋内と屋外の両方のデータセットで、認識、物体検出、インスタンスのセグメンテーションなど、幅広い 3D オープン語彙タスクにわたって最先端のパフォーマンスを実現します。
さらに、OpenIns3D を使用すると、再トレーニングを必要とせずに、異なる 2D 検出器間の簡単な切り替えが容易になります。
強力な 2D オープンワールド モデルと統合すると、シーン理解タスクで優れた結果が得られます。
さらに、OpenIns3D は、LLM を利用した 2D モデルと組み合わせると、複雑な推論と現実世界の知識を必要とする非常に複雑なテキスト クエリを理解し、処理する優れた機能を発揮します。
プロジェクトページ: https://zheninghuang.github.io/OpenIns3D/
要約(オリジナル)
In this work, we introduce OpenIns3D, a new 3D-input-only framework for 3D open-vocabulary scene understanding. The OpenIns3D framework employs a ‘Mask-Snap-Lookup’ scheme. The ‘Mask’ module learns class-agnostic mask proposals in 3D point clouds, the ‘Snap’ module generates synthetic scene-level images at multiple scales and leverages 2D vision-language models to extract interesting objects, and the ‘Lookup’ module searches through the outcomes of ‘Snap’ to assign category names to the proposed masks. This approach, yet simple, achieves state-of-the-art performance across a wide range of 3D open-vocabulary tasks, including recognition, object detection, and instance segmentation, on both indoor and outdoor datasets. Moreover, OpenIns3D facilitates effortless switching between different 2D detectors without requiring retraining. When integrated with powerful 2D open-world models, it achieves excellent results in scene understanding tasks. Furthermore, when combined with LLM-powered 2D models, OpenIns3D exhibits an impressive capability to comprehend and process highly complex text queries that demand intricate reasoning and real-world knowledge. Project page: https://zheninghuang.github.io/OpenIns3D/
arxiv情報
著者 | Zhening Huang,Xiaoyang Wu,Xi Chen,Hengshuang Zhao,Lei Zhu,Joan Lasenby |
発行日 | 2024-08-12 16:58:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google