OccGS: Zero-shot 3D Occupancy Reconstruction with Semantic and Geometric-Aware Gaussian Splatting

要約

手動注釈なしの生センサーデータからセマンティック3D占有を取得することは、依然として不可欠でありながら挑戦的なタスクです。
以前の作品はこれに認識予測の問題としてアプローチしていますが、ジオメトリとセマンティクスを使用したシーン認識3D占有再構成として定式化します。
この作業では、セマンティックと幾何学的認識ガウスのスプラッティングをゼロショットに使用した新しい3D占有再構成フレームワークであるOCCGSを提案します。
LIDARポイントによって誘導されたビジョン言語モデルとジオメトリから抽出されたセマンティクスを活用するOCCGSは、生のマルチセンサーデータからセマンティックおよび幾何学的なガウスを構築します。
また、ガウスからの占有を再構築するための累積ガウスから3Dボクセルスプラッティング方法も開発しています。
OCCGSは、占有率の予測における自己監視方法に対して好意的に機能し、完全に監視されたアプローチと同等のパフォーマンスを達成し、ゼロショットセマンティック3D占有率の推定で最先端のパフォーマンスを達成します。

要約(オリジナル)

Obtaining semantic 3D occupancy from raw sensor data without manual annotations remains an essential yet challenging task. While prior works have approached this as a perception prediction problem, we formulate it as scene-aware 3D occupancy reconstruction with geometry and semantics. In this work, we propose OccGS, a novel 3D Occupancy reconstruction framework utilizing Semantic and Geometric-Aware Gaussian Splatting in a zero-shot manner. Leveraging semantics extracted from vision-language models and geometry guided by LiDAR points, OccGS constructs Semantic and Geometric-Aware Gaussians from raw multisensor data. We also develop a cumulative Gaussian-to-3D voxel splatting method for reconstructing occupancy from the Gaussians. OccGS performs favorably against self-supervised methods in occupancy prediction, achieving comparable performance to fully supervised approaches and achieving state-of-the-art performance on zero-shot semantic 3D occupancy estimation.

arxiv情報

著者 Xiaoyu Zhou,Jingqi Wang,Yongtao Wang,Yufei Wei,Nan Dong,Ming-Hsuan Yang
発行日 2025-02-07 14:58:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク