要約
3D Visual Grounding(3DVG)は、拡張現実やロボット工学などのアプリケーションに不可欠なテキストの説明に基づいて、3Dシーンのオブジェクトを見つけることを目的としています。
従来の3DVGアプローチは、注釈付きの3Dデータセットと事前定義されたオブジェクトカテゴリに依存しており、スケーラビリティと適応性を制限しています。
これらの制限を克服するために、大規模な2Dデータでトレーニングされた2D Vision-Language Models(VLMS)を活用するゼロショット3DVGフレームワークであるSeegroundを紹介します。
Seegroundは、3Dデータと空間的に濃縮されたテキストの説明のハイブリッドとして3Dシーンを表し、3Dデータと2D-VLMS入力形式の間のギャップを埋めます。
2つのモジュールを提案します。クエリ関連の画像レンダリングの視点を動的に選択する視点適応モジュールと、2D画像を3D空間記述と統合してオブジェクトのローカリゼーションを強化するFusionアラインメントモジュールを提案します。
ScanreferとNR3Dでの広範な実験は、私たちのアプローチが既存のゼロショット方法を大きなマージンで上回ることを示しています。
特に、監視された弱い方法を超えて、完全に監視された方法に匹敵し、以前のSOTAをスキャンフーファーで7.7%、NR3Dで7.1%上回り、複雑な3DVGタスクでその効果を示しています。
要約(オリジナル)
3D Visual Grounding (3DVG) aims to locate objects in 3D scenes based on textual descriptions, essential for applications like augmented reality and robotics. Traditional 3DVG approaches rely on annotated 3D datasets and predefined object categories, limiting scalability and adaptability. To overcome these limitations, we introduce SeeGround, a zero-shot 3DVG framework leveraging 2D Vision-Language Models (VLMs) trained on large-scale 2D data. SeeGround represents 3D scenes as a hybrid of query-aligned rendered images and spatially enriched text descriptions, bridging the gap between 3D data and 2D-VLMs input formats. We propose two modules: the Perspective Adaptation Module, which dynamically selects viewpoints for query-relevant image rendering, and the Fusion Alignment Module, which integrates 2D images with 3D spatial descriptions to enhance object localization. Extensive experiments on ScanRefer and Nr3D demonstrate that our approach outperforms existing zero-shot methods by large margins. Notably, we exceed weakly supervised methods and rival some fully supervised ones, outperforming previous SOTA by 7.7% on ScanRefer and 7.1% on Nr3D, showcasing its effectiveness in complex 3DVG tasks.
arxiv情報
著者 | Rong Li,Shijie Li,Lingdong Kong,Xulei Yang,Junwei Liang |
発行日 | 2025-05-29 14:14:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google