Unlocking Textual and Visual Wisdom: Open-Vocabulary 3D Object Detection Enhanced by Comprehensive Guidance from Text and Image

要約

オープンボキャブラリー 3D オブジェクト検出 (OV-3DDet) は、新しい 3D シーン内で既知のオブジェクト カテゴリとこれまでに見たことのないオブジェクト カテゴリの両方を位置特定して認識することを目的としています。
言語と視覚の基盤モデルは、豊富なトレーニング データを使用してさまざまなオープン語彙タスクを処理することに成功していますが、OV-3DDet は、利用可能なトレーニング データが限られているため、重大な課題に直面しています。
いくつかの先駆的な取り組みでは、ビジョン言語モデル (VLM) の知識を OV-3DDet 学習に統合していますが、これらの基礎モデルの可能性はまだ十分に活用されていません。
このペーパーでは、言語と視覚の基盤モデルを活用して、オープン語彙の 3D 検出タスクに取り組むためのテキストと視覚の知恵を解き放ちます。
ビジョン基盤モデルを活用して、3D シーンで新しいクラスを発見するための画像ベースのガイダンスを提供します。
具体的には、物体検出ビジョン基盤モデルを利用して、画像内の物体をゼロショットで発見できるようにします。これは、新しい 3D 物体を識別するための最初のシードおよびフィルタリング ガイダンスとして機能します。
さらに、3D 空間を強力なビジョン言語空間と整合させるために、インスタンス、カテゴリ、シーンで事前トレーニングされた VLM を使用して 3D 特徴空間をビジョン言語特徴空間と整合させる階層的整合アプローチを導入します。
レベル。
広範な実験を通じて、精度と一般化の大幅な向上を実証し、現実世界のシナリオでオープンボキャブラリの 3D オブジェクト検出を進める上での基礎モデルの可能性を強調しています。

要約(オリジナル)

Open-vocabulary 3D object detection (OV-3DDet) aims to localize and recognize both seen and previously unseen object categories within any new 3D scene. While language and vision foundation models have achieved success in handling various open-vocabulary tasks with abundant training data, OV-3DDet faces a significant challenge due to the limited availability of training data. Although some pioneering efforts have integrated vision-language models (VLM) knowledge into OV-3DDet learning, the full potential of these foundational models has yet to be fully exploited. In this paper, we unlock the textual and visual wisdom to tackle the open-vocabulary 3D detection task by leveraging the language and vision foundation models. We leverage a vision foundation model to provide image-wise guidance for discovering novel classes in 3D scenes. Specifically, we utilize a object detection vision foundation model to enable the zero-shot discovery of objects in images, which serves as the initial seeds and filtering guidance to identify novel 3D objects. Additionally, to align the 3D space with the powerful vision-language space, we introduce a hierarchical alignment approach, where the 3D feature space is aligned with the vision-language feature space using a pre-trained VLM at the instance, category, and scene levels. Through extensive experimentation, we demonstrate significant improvements in accuracy and generalization, highlighting the potential of foundation models in advancing open-vocabulary 3D object detection in real-world scenarios.

arxiv情報

著者 Pengkun Jiao,Na Zhao,Jingjing Chen,Yu-Gang Jiang
発行日 2024-07-17 16:50:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク