PanoSLAM: Panoptic 3D Scene Reconstruction via Gaussian SLAM

要約

連続したビデオデータから3Dシーンの幾何学的、意味的、およびインスタンス情報を理解することは、ロボット工学や拡張現実(AR)のアプリケーションに不可欠である。しかし、既存のSLAM(Simultaneous Localization and Mapping)手法は、一般的に幾何学的再構成か意味的再構成のどちらかに焦点を当てている。本論文では、幾何学的再構成、3Dセマンティックセグメンテーション、および3Dインスタンスセグメンテーションを統一されたフレームワーク内で統合した初のSLAMシステムであるPanoSLAMを紹介する。我々のアプローチは、3Dガウススプラッティングをベースとし、任意の視点から奥行き、色、意味、およびインスタンス情報の効率的なレンダリングを可能にするために、いくつかの重要なコンポーネントを変更したものである。連続したRGB-D映像から汎視的な3Dシーン再構成を実現するために、視覚モデルからの2D汎視予測を3Dガウス表現に変換するオンラインのSTL(Spatial-Temporal Lifting)モジュールを提案する。このSTLモジュールは、多視点入力にまたがる擬似ラベルを精緻化することで、2D予測におけるラベルノイズや不整合の課題に対処し、セグメンテーション精度を向上させる首尾一貫した3D表現を作成する。我々の実験は、PanoSLAMがマッピングとトラッキングの精度の両方において、最近のセマンティックSLAM手法を上回ることを示している。初めて、RGB-D映像から直接オープンワールド環境の全視野3D再構成を達成した。(https://github.com/runnanchen/PanoSLAM)

要約(オリジナル)

Understanding geometric, semantic, and instance information in 3D scenes from sequential video data is essential for applications in robotics and augmented reality. However, existing Simultaneous Localization and Mapping (SLAM) methods generally focus on either geometric or semantic reconstruction. In this paper, we introduce PanoSLAM, the first SLAM system to integrate geometric reconstruction, 3D semantic segmentation, and 3D instance segmentation within a unified framework. Our approach builds upon 3D Gaussian Splatting, modified with several critical components to enable efficient rendering of depth, color, semantic, and instance information from arbitrary viewpoints. To achieve panoptic 3D scene reconstruction from sequential RGB-D videos, we propose an online Spatial-Temporal Lifting (STL) module that transfers 2D panoptic predictions from vision models into 3D Gaussian representations. This STL module addresses the challenges of label noise and inconsistencies in 2D predictions by refining the pseudo labels across multi-view inputs, creating a coherent 3D representation that enhances segmentation accuracy. Our experiments show that PanoSLAM outperforms recent semantic SLAM methods in both mapping and tracking accuracy. For the first time, it achieves panoptic 3D reconstruction of open-world environments directly from the RGB-D video. (https://github.com/runnanchen/PanoSLAM)

arxiv情報

著者 Runnan Chen,Zhaoqing Wang,Jiepeng Wang,Yuexin Ma,Mingming Gong,Wenping Wang,Tongliang Liu
発行日 2024-12-31 08:58:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.RO パーマリンク