SceneSplat: Gaussian Splatting-based Scene Understanding with Vision-Language Pretraining

要約

実世界の3Dシーンを包括的に理解するためには、任意の、あるいは以前に見たことのないカテゴリーを認識することが不可欠である。現在のところ、既存の手法はすべて、学習時または推論時に2Dまたはテキストモダリティに依存している。このことは、セマンティクスをエンドツーエンドで学習するために3Dデータを単独で処理できるモデルが、そのようなモデルを訓練するために必要なデータとともに存在しないことを明確に示している。一方、3Dガウススプラッティング(3DGS)は、様々な視覚タスクにおける3Dシーン表現のデファクトスタンダードとして登場した。しかしながら、セマンティック推論を一般化可能な方法で3DGSに効果的に統合することは、依然として未解決の課題である。これらの限界に対処するために、我々はSceneSplatを紹介する。これは我々の知る限り、3DGS上でネイティブに動作する最初の大規模3D屋内シーン理解アプローチである。さらに、ラベル付けされていないシーンから豊富な3D特徴を学習する自己教師あり学習スキームを提案する。ScanNetやMatterport3Dなどの7つの確立されたデータセットから得られた7916シーンから構成される。SceneSplat-7Kの生成には、L4 GPUで150 GPU日に相当する計算リソースが必要であり、屋内シーンの3DGSベースの推論のための標準化されたベンチマークを可能にする。SceneSplat-7Kを用いた徹底的な実験により、確立されたベースラインに対する提案手法の大きな利点が実証された。

要約(オリジナル)

Recognizing arbitrary or previously unseen categories is essential for comprehensive real-world 3D scene understanding. Currently, all existing methods rely on 2D or textual modalities during training or together at inference. This highlights the clear absence of a model capable of processing 3D data alone for learning semantics end-to-end, along with the necessary data to train such a model. Meanwhile, 3D Gaussian Splatting (3DGS) has emerged as the de facto standard for 3D scene representation across various vision tasks. However, effectively integrating semantic reasoning into 3DGS in a generalizable manner remains an open challenge. To address these limitations, we introduce SceneSplat, to our knowledge the first large-scale 3D indoor scene understanding approach that operates natively on 3DGS. Furthermore, we propose a self-supervised learning scheme that unlocks rich 3D feature learning from unlabeled scenes. To power the proposed methods, we introduce SceneSplat-7K, the first large-scale 3DGS dataset for indoor scenes, comprising 7916 scenes derived from seven established datasets, such as ScanNet and Matterport3D. Generating SceneSplat-7K required computational resources equivalent to 150 GPU days on an L4 GPU, enabling standardized benchmarking for 3DGS-based reasoning for indoor scenes. Our exhaustive experiments on SceneSplat-7K demonstrate the significant benefit of the proposed method over the established baselines.

arxiv情報

著者 Yue Li,Qi Ma,Runyi Yang,Huapeng Li,Mengjiao Ma,Bin Ren,Nikola Popovic,Nicu Sebe,Ender Konukoglu,Theo Gevers,Luc Van Gool,Martin R. Oswald,Danda Pani Paudel
発行日 2025-06-03 16:42:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク