要約
3Dガウススプラッティング(3D-GS)の最近の進歩により、RGB画像から高品質の3Dシーンの再構築が可能になります。
多くの研究は、言語主導のオープンボキャブラリーシーンの理解のためにこのパラダイムを拡張しています。
ただし、それらのほとんどは、2Dセマンティック機能を3Dガウスに投影し、2Dと3Dの理解の根本的なギャップを見落としているだけです。3Dオブジェクトは、さまざまな観点からさまざまなセマンティクスを示す場合があります。
この課題に対処するために、3Dシーンをオブジェクトに分解することでクロスビューセマンティック接続を確立するLaga(言語ガウス)を提案します。
次に、セマンティック記述子をクラスタリングし、マルチビューセマンティクスに基づいてそれらを再び測定することにより、ビューと組み合わせたセマンティック表現を構築します。
広範な実験は、Lagaがビュー依存のセマンティクスから重要な情報を効果的にキャプチャし、3Dシーンをより包括的な理解できるようにすることを示しています。
特に、同じ設定では、LAGAはLERF-OVSデータセットで以前のSOTAよりも +18.7%MIOUの大幅な改善を達成します。
私たちのコードは、https://github.com/sjtu-deepvisionlab/lagaで入手できます。
要約(オリジナル)
Recent advancements in 3D Gaussian Splatting (3D-GS) enable high-quality 3D scene reconstruction from RGB images. Many studies extend this paradigm for language-driven open-vocabulary scene understanding. However, most of them simply project 2D semantic features onto 3D Gaussians and overlook a fundamental gap between 2D and 3D understanding: a 3D object may exhibit various semantics from different viewpoints–a phenomenon we term view-dependent semantics. To address this challenge, we propose LaGa (Language Gaussians), which establishes cross-view semantic connections by decomposing the 3D scene into objects. Then, it constructs view-aggregated semantic representations by clustering semantic descriptors and reweighting them based on multi-view semantics. Extensive experiments demonstrate that LaGa effectively captures key information from view-dependent semantics, enabling a more comprehensive understanding of 3D scenes. Notably, under the same settings, LaGa achieves a significant improvement of +18.7% mIoU over the previous SOTA on the LERF-OVS dataset. Our code is available at: https://github.com/SJTU-DeepVisionLab/LaGa.
arxiv情報
著者 | Jiazhong Cen,Xudong Zhou,Jiemin Fang,Changsong Wen,Lingxi Xie,Xiaopeng Zhang,Wei Shen,Qi Tian |
発行日 | 2025-05-30 16:06:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google