要約
実世界の3Dシーンを包括的に理解するためには、任意の、あるいは以前に見たことのないカテゴリーを認識することが不可欠である。現在のところ、既存の手法はすべて、学習時または推論時に2Dまたはテキストモダリティに依存している。このことは、セマンティクスをエンドツーエンドで学習するために3Dデータを単独で処理できるモデルが、そのようなモデルを訓練するために必要なデータとともに存在しないことを明確に示している。一方、3Dガウススプラッティング(3DGS)は、様々な視覚タスクにおける3Dシーン表現のデファクトスタンダードとして登場した。しかしながら、セマンティック推論を一般化可能な方法で3DGSに効果的に統合することは、依然として未解決の課題である。これらの限界に対処するために、我々はSceneSplatを紹介する。これは我々の知る限り、3DGS上でネイティブに動作する最初の大規模3D屋内シーン理解アプローチである。さらに、ラベル付けされていないシーンから豊富な3D特徴を学習する自己教師あり学習スキームを提案する。ScanNetやMatterport3Dなどの7つの確立されたデータセットから得られた7916シーンから構成される。SceneSplat-7Kの生成には、L4 GPUで150 GPU日に相当する計算リソースが必要であり、屋内シーンの3DGSベースの推論のための標準化されたベンチマークを可能にする。SceneSplat-7Kを用いた徹底的な実験により、確立されたベースラインに対する提案手法の大きな利点が実証された。
要約(オリジナル)
Recognizing arbitrary or previously unseen categories is essential for comprehensive real-world 3D scene understanding. Currently, all existing methods rely on 2D or textual modalities during training or together at inference. This highlights the clear absence of a model capable of processing 3D data alone for learning semantics end-to-end, along with the necessary data to train such a model. Meanwhile, 3D Gaussian Splatting (3DGS) has emerged as the de facto standard for 3D scene representation across various vision tasks. However, effectively integrating semantic reasoning into 3DGS in a generalizable manner remains an open challenge. To address these limitations, we introduce SceneSplat, to our knowledge the first large-scale 3D indoor scene understanding approach that operates natively on 3DGS. Furthermore, we propose a self-supervised learning scheme that unlocks rich 3D feature learning from unlabeled scenes. To power the proposed methods, we introduce SceneSplat-7K, the first large-scale 3DGS dataset for indoor scenes, comprising 7916 scenes derived from seven established datasets, such as ScanNet and Matterport3D. Generating SceneSplat-7K required computational resources equivalent to 150 GPU days on an L4 GPU, enabling standardized benchmarking for 3DGS-based reasoning for indoor scenes. Our exhaustive experiments on SceneSplat-7K demonstrate the significant benefit of the proposed method over the established baselines.
arxiv情報
著者 | Yue Li,Qi Ma,Runyi Yang,Huapeng Li,Mengjiao Ma,Bin Ren,Nikola Popovic,Nicu Sebe,Ender Konukoglu,Theo Gevers,Luc Van Gool,Martin R. Oswald,Danda Pani Paudel |
発行日 | 2025-06-03 16:42:52+00:00 |
arxivサイト | arxiv_id(pdf) |