Open-Vocabulary 3D Semantic Segmentation with Text-to-Image Diffusion Models

要約

この論文では、オープン語彙の 3D 意味論的理解を目的として、大規模な画像とキャプションのペアで事前トレーニングされた拡散モデルの使用を調査します。
我々は、オープンボキャブラリーの 3D セマンティック セグメンテーションとビジュアル グラウンディング タスクのために、テキスト画像生成モデルからのフリーズ表現と、顕著性認識マスクおよび幾何学認識マスクを活用する新しい方法、つまり Diff2Scene を提案します。
Diff2Scene は、ラベル付き 3D データをすべて取り除き、3D シーン内のオブジェクト、外観、マテリアル、場所、およびそれらの構成を効果的に識別します。
この手法が競合ベースラインを上回り、最先端の手法と比べて大幅な改善が達成されることを示します。
特に、Diff2Scene は、ScanNet200 の最先端の方法を 12% 改善します。

要約(オリジナル)

In this paper, we investigate the use of diffusion models which are pre-trained on large-scale image-caption pairs for open-vocabulary 3D semantic understanding. We propose a novel method, namely Diff2Scene, which leverages frozen representations from text-image generative models, along with salient-aware and geometric-aware masks, for open-vocabulary 3D semantic segmentation and visual grounding tasks. Diff2Scene gets rid of any labeled 3D data and effectively identifies objects, appearances, materials, locations and their compositions in 3D scenes. We show that it outperforms competitive baselines and achieves significant improvements over state-of-the-art methods. In particular, Diff2Scene improves the state-of-the-art method on ScanNet200 by 12%.

arxiv情報

著者 Xiaoyu Zhu,Hao Zhou,Pengfei Xing,Long Zhao,Hao Xu,Junwei Liang,Alexander Hauptmann,Ting Liu,Andrew Gallagher
発行日 2024-07-18 16:20:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク