Masked Point-Entity Contrast for Open-Vocabulary 3D Scene Understanding

要約

具体化されたエージェントが実際の環境内で動的に解釈および相互作用することを可能にするため、オープンボキャブラリー3Dシーンの理解は、物理的知能を強化するために極めて重要です。
このペーパーでは、3Dエンティティ言語のアライメントと異なるポイントクラウドビュー全体でポイントエンティティの一貫性を活用してエンティティ固有の特徴表現を促進する、オープンポイントエンティティコントラスト学習方法であるMPECを紹介します。
私たちの方法は、セマンティックな差別を改善し、ユニークなインスタンスの差別化を強化し、オープンボキャブリー3DセマンティックセグメンテーションのためにScannetで最新の結果を達成し、優れたゼロショットシーンの理解機能を実証します。
低レベルの知覚から高レベルの推論タスクに至るまで、8つのデータセットでの広範な微調整実験は、学習した3D機能の可能性を紹介し、さまざまな3Dシーンの理解タスク全体で一貫したパフォーマンスの向上を促進します。
プロジェクトのウェブサイト:https://mpec-3d.github.io/

要約(オリジナル)

Open-vocabulary 3D scene understanding is pivotal for enhancing physical intelligence, as it enables embodied agents to interpret and interact dynamically within real-world environments. This paper introduces MPEC, a novel Masked Point-Entity Contrastive learning method for open-vocabulary 3D semantic segmentation that leverages both 3D entity-language alignment and point-entity consistency across different point cloud views to foster entity-specific feature representations. Our method improves semantic discrimination and enhances the differentiation of unique instances, achieving state-of-the-art results on ScanNet for open-vocabulary 3D semantic segmentation and demonstrating superior zero-shot scene understanding capabilities. Extensive fine-tuning experiments on 8 datasets, spanning from low-level perception to high-level reasoning tasks, showcase the potential of learned 3D features, driving consistent performance gains across varied 3D scene understanding tasks. Project website: https://mpec-3d.github.io/

arxiv情報

著者 Yan Wang,Baoxiong Jia,Ziyu Zhu,Siyuan Huang
発行日 2025-04-28 05:43:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク