Cross-Modal and Uncertainty-Aware Agglomeration for Open-Vocabulary 3D Scene Understanding

要約

大規模な3Dテキストコーパスの欠如により、最近の作品により、視覚障害モデル(VLMS)からオープンボキャブラリーの知識を蒸留するようになりました。
ただし、これらの方法は通常、単一のVLMに依存して、共通言語空間内の3Dモデルの特徴スペースを調整します。これにより、さまざまな基礎モデルにカプセル化された多様な空間およびセマンティック機能を活用する3Dモデルの可能性が制限されます。
このホワイトペーパーでは、CUA-O3Dと呼ばれるオープンボキャブラリー3Dシーンを理解するためのクロスモーダルおよび不確実性を意識した集積を提案します。
さらに、これらのモデルからの不均一な2D特徴の埋め込みを適応的に蒸留および調和させるための決定論的な不確実性の推定を導入します。
私たちの方法では、2つの重要な課題に対処します。(1)空間的に認識されたビジョン基礎モデルの幾何学的知識とともにVLMのセマンティックプリエアを組み込むこと、および(2)多様なセマンティックおよび幾何学的感受性を介したモデル固有の不確実性を捉えて、トレーニング中の独立した表現を再現するのに役立つモデル固有の不確実性をキャプチャするために使用します。
scannetv2およびmatterport3dでの広範な実験は、私たちの方法がオープンボキャブラリーセグメンテーションを進めるだけでなく、堅牢なクロスドメインアライメントと競争力のある空間認識能力を達成することを示しています。
コードは、https://github.com/tyroneli/cua_o3dで入手できます。

要約(オリジナル)

The lack of a large-scale 3D-text corpus has led recent works to distill open-vocabulary knowledge from vision-language models (VLMs). However, these methods typically rely on a single VLM to align the feature spaces of 3D models within a common language space, which limits the potential of 3D models to leverage the diverse spatial and semantic capabilities encapsulated in various foundation models. In this paper, we propose Cross-modal and Uncertainty-aware Agglomeration for Open-vocabulary 3D Scene Understanding dubbed CUA-O3D, the first model to integrate multiple foundation models-such as CLIP, DINOv2, and Stable Diffusion-into 3D scene understanding. We further introduce a deterministic uncertainty estimation to adaptively distill and harmonize the heterogeneous 2D feature embeddings from these models. Our method addresses two key challenges: (1) incorporating semantic priors from VLMs alongside the geometric knowledge of spatially-aware vision foundation models, and (2) using a novel deterministic uncertainty estimation to capture model-specific uncertainties across diverse semantic and geometric sensitivities, helping to reconcile heterogeneous representations during training. Extensive experiments on ScanNetV2 and Matterport3D demonstrate that our method not only advances open-vocabulary segmentation but also achieves robust cross-domain alignment and competitive spatial perception capabilities. The code will be available at: https://github.com/TyroneLi/CUA_O3D.

arxiv情報

著者 Jinlong Li,Cristiano Saltori,Fabio Poiesi,Nicu Sebe
発行日 2025-03-28 15:55:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク