LangSurf: Language-Embedded Surface Gaussians for 3D Scene Understanding

要約

3D シーンを理解するためにガウス スプラッティングを知覚タスクに適用することはますます一般的になりつつあります。
既存の作品のほとんどは、新しい視点から 2D フィーチャ マップをレンダリングすることに主に焦点を当てており、これにより外れ値言語を含む不正確な 3D 言語フィールドが生じ、最終的には 3D 空間内でオブジェクトを位置合わせできなくなります。
これらのアプローチでは、特徴抽出にマスクされた画像を利用するため、重要なコンテキスト情報も欠如し、不正確な特徴表現につながります。
この目的を達成するために、私たちは、3D 言語フィールドをオブジェクトの表面と正確に位置合わせし、テキスト クエリによる正確な 2D および 3D セグメンテーションを容易にし、削除や編集などの下流タスクを幅広く拡張する、Language-Embedded Surface Field (LangSurf) を提案します。
LangSurf の中核は、オブジェクトのガウスに正確な言語特徴を割り当てるために、ジオメトリ監視と対比損失を使用してオブジェクト表面上の言語ガウスを平坦化する共同トレーニング戦略です。
さらに、階層コンテキスト認識モジュールも導入し、コンテキスト情報の画像レベルで特徴を抽出し、SAM によってセグメント化されたマスクを使用して階層マスク プーリングを実行し、さまざまな階層で粒度の細かい言語特徴を取得します。
オープンボキャブラリーの 2D および 3D セマンティック セグメンテーションに関する広範な実験により、LangSurf が以前の最先端の手法である LangSplat を大幅に上回ることが実証されました。
図1に示すように、私たちの方法は3D空間でオブジェクトをセグメント化できるため、インスタンスの認識、削除、編集におけるアプローチの有効性が高まります。これは包括的な実験によっても裏付けられています。
\url{https://langsurf.github.io}。

要約(オリジナル)

Applying Gaussian Splatting to perception tasks for 3D scene understanding is becoming increasingly popular. Most existing works primarily focus on rendering 2D feature maps from novel viewpoints, which leads to an imprecise 3D language field with outlier languages, ultimately failing to align objects in 3D space. By utilizing masked images for feature extraction, these approaches also lack essential contextual information, leading to inaccurate feature representation. To this end, we propose a Language-Embedded Surface Field (LangSurf), which accurately aligns the 3D language fields with the surface of objects, facilitating precise 2D and 3D segmentation with text query, widely expanding the downstream tasks such as removal and editing. The core of LangSurf is a joint training strategy that flattens the language Gaussian on the object surfaces using geometry supervision and contrastive losses to assign accurate language features to the Gaussians of objects. In addition, we also introduce the Hierarchical-Context Awareness Module to extract features at the image level for contextual information then perform hierarchical mask pooling using masks segmented by SAM to obtain fine-grained language features in different hierarchies. Extensive experiments on open-vocabulary 2D and 3D semantic segmentation demonstrate that LangSurf outperforms the previous state-of-the-art method LangSplat by a large margin. As shown in Fig. 1, our method is capable of segmenting objects in 3D space, thus boosting the effectiveness of our approach in instance recognition, removal, and editing, which is also supported by comprehensive experiments. \url{https://langsurf.github.io}.

arxiv情報

著者 Hao Li,Roy Qin,Zhengyu Zou,Diqi He,Bohan Li,Bingquan Dai,Dingewn Zhang,Junwei Han
発行日 2024-12-24 02:48:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク