要約
自然言語と3Dジオメトリを橋渡しすることは、柔軟で言語主導のシーンの理解に向けた重要なステップです。
3Dガウススプラッティング(3DG)の最近の進歩により、高速かつ高品質のシーンの再構築が可能になりましたが、研究では3DGSにオープンボキャブラリーの理解を組み込むことも調査されています。
ただし、ほとんどの既存の方法では、2Dセマンティックフィーチャマップごとに反復的な最適化が必要です。これは、非効率性をもたらすだけでなく、ビュー全体で一貫性のない3Dセマンティクスにつながります。
これらの制限に対処するために、ガウスプリミティブから直接スーパーポイントグラフを構築するトレーニングフリーのフレームワークを紹介します。
スーパーポイントグラフは、シーンを空間的にコンパクトで意味的にコヒーレントな領域に分割し、視野整合性の3Dエンティティを形成し、オープンポアブル理解のための構造化された基盤を提供します。
グラフ構造に基づいて、2Dセマンティック機能をスーパーポイントに持ち上げる効率的な再注入戦略を設計し、費用のかかるマルチビュー反復トレーニングを回避します。
結果として生じる表現は、強力な3Dセマンティックコヒーレンスを保証し、階層的理解を自然にサポートし、統一されたセマンティックフィールド内で粗粒と微細なオープンボキャブラリー認識の両方を可能にします。
広範な実験は、この方法が最先端のオープンボキャブラリーセグメンテーションパフォーマンスを達成し、セマンティックフィールドの再構成が30ドル以上の速度を速く完了することを示しています。
私たちのコードは、https://github.com/atrovast/thgsで入手できます。
要約(オリジナル)
Bridging natural language and 3D geometry is a crucial step toward flexible, language-driven scene understanding. While recent advances in 3D Gaussian Splatting (3DGS) have enabled fast and high-quality scene reconstruction, research has also explored incorporating open-vocabulary understanding into 3DGS. However, most existing methods require iterative optimization over per-view 2D semantic feature maps, which not only results in inefficiencies but also leads to inconsistent 3D semantics across views. To address these limitations, we introduce a training-free framework that constructs a superpoint graph directly from Gaussian primitives. The superpoint graph partitions the scene into spatially compact and semantically coherent regions, forming view-consistent 3D entities and providing a structured foundation for open-vocabulary understanding. Based on the graph structure, we design an efficient reprojection strategy that lifts 2D semantic features onto the superpoints, avoiding costly multi-view iterative training. The resulting representation ensures strong 3D semantic coherence and naturally supports hierarchical understanding, enabling both coarse- and fine-grained open-vocabulary perception within a unified semantic field. Extensive experiments demonstrate that our method achieves state-of-the-art open-vocabulary segmentation performance, with semantic field reconstruction completed over $30\times$ faster. Our code will be available at https://github.com/Atrovast/THGS.
arxiv情報
著者 | Shaohui Dai,Yansong Qu,Zheyan Li,Xinyang Li,Shengchuan Zhang,Liujuan Cao |
発行日 | 2025-04-17 17:56:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google