RAZER: Robust Accelerated Zero-Shot 3D Open-Vocabulary Panoptic Reconstruction with Spatio-Temporal Aggregation

要約

複雑な3D環境のマッピングと理解は、自律システムが物理的世界とどのように知覚し、相互作用するかの基本であり、正確な幾何学的再構成と豊富な意味的理解の両方を必要とします。
既存の3Dセマンティックマッピングシステムは、事前に定義されたオブジェクトインスタンスの再構築と識別に優れていますが、オンライン操作中にオープンボキャブラリーでセマンティックマップを効率的に構築する柔軟性がありません。
最近のビジョン言語モデルでは、2D画像でのオープンボキャブラリーオブジェクトの認識が可能になりましたが、3D空間理解へのギャップをまだ埋めていません。
重要な課題は、セマンティックの一貫性を維持し、リアルタイムで自然言語の相互作用をサポートしながら、正確な3Dマップを同時に構築できるトレーニングなしの統一システムを開発することにあります。
このホワイトペーパーでは、GPUにアクセスした幾何学的再構築を、空間インデックスとの階層的オブジェクト関連に導かれたオンラインインスタンスレベルのセマンティックエンミングフュージョンを通じて、GPUにアクセラレーションされた幾何学的再構成をオープンボキャブラリービジョン言語モデルとシームレスに統合することを開発します。
当社のトレーニングフリーシステムは、増分処理と統一された幾何セマンチックな更新を通じて優れたパフォーマンスを実現し、2Dセグメンテーションの矛盾を堅牢に処理します。
提案されている汎用3Dシーン理解フレームワークは、ゼロショット3Dインスタンス検索、セグメンテーション、オブジェクト検出など、以前に見えなかったオブジェクトについての理由と自然言語のクエリを解釈するなど、さまざまなタスクに使用できます。
プロジェクトページは、https://razer-3d.github.ioで入手できます。

要約(オリジナル)

Mapping and understanding complex 3D environments is fundamental to how autonomous systems perceive and interact with the physical world, requiring both precise geometric reconstruction and rich semantic comprehension. While existing 3D semantic mapping systems excel at reconstructing and identifying predefined object instances, they lack the flexibility to efficiently build semantic maps with open-vocabulary during online operation. Although recent vision-language models have enabled open-vocabulary object recognition in 2D images, they haven’t yet bridged the gap to 3D spatial understanding. The critical challenge lies in developing a training-free unified system that can simultaneously construct accurate 3D maps while maintaining semantic consistency and supporting natural language interactions in real time. In this paper, we develop a zero-shot framework that seamlessly integrates GPU-accelerated geometric reconstruction with open-vocabulary vision-language models through online instance-level semantic embedding fusion, guided by hierarchical object association with spatial indexing. Our training-free system achieves superior performance through incremental processing and unified geometric-semantic updates, while robustly handling 2D segmentation inconsistencies. The proposed general-purpose 3D scene understanding framework can be used for various tasks including zero-shot 3D instance retrieval, segmentation, and object detection to reason about previously unseen objects and interpret natural language queries. The project page is available at https://razer-3d.github.io.

arxiv情報

著者 Naman Patel,Prashanth Krishnamurthy,Farshad Khorrami
発行日 2025-05-21 11:07:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク