CLIP-GS: CLIP-Informed Gaussian Splatting for Real-time and View-consistent 3D Semantic Understanding

要約

最近の 3D ガウス スプラッティング (GS) は、3D シーンでの新しいビューの高品質かつリアルタイムの合成を示します。
現時点では、主にジオメトリと外観のモデリングに焦点を当てていますが、シーンの意味的な理解は不足しています。
このギャップを埋めるために、CLIP-GS を紹介します。これは、Contrastive Language-Image Pre-Training (CLIP) のセマンティクスをガウス スプラッティングに統合し、注釈付きのセマンティクス データなしで 3D 環境を効率的に理解します。
具体的には、効率を大幅に低下させる 3D ガウスの高次元の意味論的特徴を直接学習してレンダリングするのではなく、意味論的属性コンパクトネス (SAC) アプローチを提案します。
SAC は、オブジェクト内の固有の統一セマンティクスを利用して、3D ガウスのコンパクトかつ効果的なセマンティクス表現を学習し、高効率のレンダリング (>100 FPS) を可能にします。
さらに、ビューに一貫性のない 2D CLIP セマンティクスを利用してガウス分布を監視することによって引き起こされるセマンティクスの曖昧さに対処するために、3D モデルに由来するマルチビューの一貫性を利用した 3D コヒーレント自己トレーニング (3DCS) 戦略を導入します。
3DCS は、トレーニングされた 3D ガウス モデルから派生した洗練された自己予測疑似ラベルを活用することにより、ビュー間のセマンティック一貫性の制約を課し、それによって正確でビュー一貫性のあるセグメンテーション結果を強化します。
広範な実験により、私たちの手法は既存の最先端のアプローチよりも著しく優れており、リアルタイムのレンダリング速度を維持しながら、レプリカ データセットと ScanNet データセットの mIoU メトリクスでそれぞれ 17.29% と 20.81% の改善を達成することが実証されました。
さらに、私たちのアプローチは、まばらな入力データでも優れたパフォーマンスを示し、私たちの方法の堅牢性が実証されています。

要約(オリジナル)

The recent 3D Gaussian Splatting (GS) exhibits high-quality and real-time synthesis of novel views in 3D scenes. Currently, it primarily focuses on geometry and appearance modeling, while lacking the semantic understanding of scenes. To bridge this gap, we present CLIP-GS, which integrates semantics from Contrastive Language-Image Pre-Training (CLIP) into Gaussian Splatting to efficiently comprehend 3D environments without annotated semantic data. In specific, rather than straightforwardly learning and rendering high-dimensional semantic features of 3D Gaussians, which significantly diminishes the efficiency, we propose a Semantic Attribute Compactness (SAC) approach. SAC exploits the inherent unified semantics within objects to learn compact yet effective semantic representations of 3D Gaussians, enabling highly efficient rendering (>100 FPS). Additionally, to address the semantic ambiguity, caused by utilizing view-inconsistent 2D CLIP semantics to supervise Gaussians, we introduce a 3D Coherent Self-training (3DCS) strategy, resorting to the multi-view consistency originated from the 3D model. 3DCS imposes cross-view semantic consistency constraints by leveraging refined, self-predicted pseudo-labels derived from the trained 3D Gaussian model, thereby enhancing precise and view-consistent segmentation results. Extensive experiments demonstrate that our method remarkably outperforms existing state-of-the-art approaches, achieving improvements of 17.29% and 20.81% in mIoU metric on Replica and ScanNet datasets, respectively, while maintaining real-time rendering speed. Furthermore, our approach exhibits superior performance even with sparse input data, verifying the robustness of our method.

arxiv情報

著者 Guibiao Liao,Jiankun Li,Zhenyu Bao,Xiaoqing Ye,Jingdong Wang,Qing Li,Kanglin Liu
発行日 2024-04-22 15:01:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク