XMask3D: Cross-modal Mask Reasoning for Open Vocabulary 3D Semantic Segmentation

要約

オープンボキャブラリーの 3D セマンティック セグメンテーションにおける既存の方法論は、主に 3D、2D、およびテキスト モダリティを含む統一された特徴空間を確立することに重点を置いています。
それにもかかわらず、グローバルな特徴の位置合わせや視覚言語モデルの蒸留などの従来の技術は、近似的な対応のみを課す傾向があり、特に細粒度のセグメンテーション境界を描くのに苦労しています。
このギャップに対処するために、クロスモーダル マスク推論フレームワークである XMask3D を介して、3D フィーチャと 2D テキスト埋め込み空間の間のより細心のマスク レベルの調整を提案します。
私たちのアプローチでは、事前にトレーニングされた拡散モデルからのノイズ除去 UNet に基づいてマスク ジェネレーターを開発し、高密度ピクセル表現に対する正確なテキスト制御の機能を活用し、生成されたマスクのオープンワールド適応性を強化しました。
さらに、3D グローバル特徴を暗黙的な条件として事前トレーニングされた 2D ノイズ除去 UNet に統合し、追加の 3D ジオメトリ認識を備えたセグメンテーション マスクの生成を可能にします。
その後、生成された 2D マスクを使用して、マスクレベルの 3D 表現を視覚言語特徴空間と位置合わせし、それによって 3D ジオメトリ埋め込みのオープンボキャブラリ機能を強化します。
最後に、補完的な 2D マスク機能と 3D マスク機能を融合し、3D オープンボキャブラリーのセマンティックセグメンテーションの複数のベンチマークにわたって競争力のあるパフォーマンスを実現します。
コードは https://github.com/wangzy22/XMask3D で入手できます。

要約(オリジナル)

Existing methodologies in open vocabulary 3D semantic segmentation primarily concentrate on establishing a unified feature space encompassing 3D, 2D, and textual modalities. Nevertheless, traditional techniques such as global feature alignment or vision-language model distillation tend to impose only approximate correspondence, struggling notably with delineating fine-grained segmentation boundaries. To address this gap, we propose a more meticulous mask-level alignment between 3D features and the 2D-text embedding space through a cross-modal mask reasoning framework, XMask3D. In our approach, we developed a mask generator based on the denoising UNet from a pre-trained diffusion model, leveraging its capability for precise textual control over dense pixel representations and enhancing the open-world adaptability of the generated masks. We further integrate 3D global features as implicit conditions into the pre-trained 2D denoising UNet, enabling the generation of segmentation masks with additional 3D geometry awareness. Subsequently, the generated 2D masks are employed to align mask-level 3D representations with the vision-language feature space, thereby augmenting the open vocabulary capability of 3D geometry embeddings. Finally, we fuse complementary 2D and 3D mask features, resulting in competitive performance across multiple benchmarks for 3D open vocabulary semantic segmentation. Code is available at https://github.com/wangzy22/XMask3D.

arxiv情報

著者 Ziyi Wang,Yanbo Wang,Xumin Yu,Jie Zhou,Jiwen Lu
発行日 2024-11-20 12:02:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク