Zero-Shot 3D Visual Grounding from Vision-Language Models

要約

3D Visual Grounding(3DVG)は、自然言語の説明を使用して3Dシーンでターゲットオブジェクトを見つけようとしており、拡張現実やロボット工学などのダウンストリームアプリケーションを可能にします。
既存のアプローチは、通常、ラベル付きの3Dデータと事前定義されたカテゴリに依存しており、オープンワールド設定のスケーラビリティを制限します。
2Dビジョン言語モデル(VLM)を活用して、3D固有のトレーニングの必要性をバイパスするゼロショット3DVGフレームワークであるSeegroundを紹介します。
モダリティギャップを埋めるために、クエリに整列したレンダリングされたビューを空間的に濃縮したテキスト説明とペアにするハイブリッド入力形式を導入します。
フレームワークには、クエリに基づいて最適な視点を動的に選択するパースペクティブ適応モジュールと、視覚的および空間的信号を統合してローカリゼーション精度を強化する融合アライメントモジュールの2つのコアコンポーネントが組み込まれています。
ScanreferとNR3Dの広範な評価は、Seegroundが既存のゼロショットベースライン(それぞれ7.7%と7.1%を上回る)よりも大幅な改善を達成することを確認し、ライバルは完全に監督された代替案でさえ、困難な条件下での強い一般化を実証します。

要約(オリジナル)

3D Visual Grounding (3DVG) seeks to locate target objects in 3D scenes using natural language descriptions, enabling downstream applications such as augmented reality and robotics. Existing approaches typically rely on labeled 3D data and predefined categories, limiting scalability to open-world settings. We present SeeGround, a zero-shot 3DVG framework that leverages 2D Vision-Language Models (VLMs) to bypass the need for 3D-specific training. To bridge the modality gap, we introduce a hybrid input format that pairs query-aligned rendered views with spatially enriched textual descriptions. Our framework incorporates two core components: a Perspective Adaptation Module that dynamically selects optimal viewpoints based on the query, and a Fusion Alignment Module that integrates visual and spatial signals to enhance localization precision. Extensive evaluations on ScanRefer and Nr3D confirm that SeeGround achieves substantial improvements over existing zero-shot baselines — outperforming them by 7.7% and 7.1%, respectively — and even rivals fully supervised alternatives, demonstrating strong generalization under challenging conditions.

arxiv情報

著者 Rong Li,Shijie Li,Lingdong Kong,Xulei Yang,Junwei Liang
発行日 2025-05-28 14:53:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク