要約
密な同時定位とマッピング(SLAM)は、具現化されたシーン理解にとって極めて重要である。最近の研究では、3Dガウシアンによって、複数のポーズ付きカメラを用いたシーンの高品質再構成とリアルタイムレンダリングが可能であることが示されている。この観点から、我々は、3Dガウシアンによってシーンを表現することで、単一のポーズなし単眼RGB-Dカメラを用いた高密度なSLAMが可能になることを初めて示す。我々の手法であるSplaTAMは、高速なレンダリングと最適化、以前にマッピングされた領域かどうかを判断する機能、より多くのガウシアンを追加することによる構造化されたマップ拡張など、以前の輝度フィールドベースの表現の限界に対処している。我々は、オンライントラッキングとマッピングのパイプラインを採用し、特に基礎となるガウス表現と微分可能なレンダリングによるシルエットガイド付き最適化を使用するようにカスタマイズしている。広範な実験により、SplaTAMはカメラのポーズ推定、マップ構築、およびノベルビュー合成において、最大2倍の最先端の性能を達成し、既存のアプローチよりも優れていることを示すと同時に、高解像度の高密度3Dマップのリアルタイムレンダリングを可能にする。
要約(オリジナル)
Dense simultaneous localization and mapping (SLAM) is pivotal for embodied scene understanding. Recent work has shown that 3D Gaussians enable high-quality reconstruction and real-time rendering of scenes using multiple posed cameras. In this light, we show for the first time that representing a scene by 3D Gaussians can enable dense SLAM using a single unposed monocular RGB-D camera. Our method, SplaTAM, addresses the limitations of prior radiance field-based representations, including fast rendering and optimization, the ability to determine if areas have been previously mapped, and structured map expansion by adding more Gaussians. We employ an online tracking and mapping pipeline while tailoring it to specifically use an underlying Gaussian representation and silhouette-guided optimization via differentiable rendering. Extensive experiments show that SplaTAM achieves up to 2X state-of-the-art performance in camera pose estimation, map construction, and novel-view synthesis, demonstrating its superiority over existing approaches, while allowing real-time rendering of a high-resolution dense 3D map.
arxiv情報
著者 | Nikhil Keetha,Jay Karhade,Krishna Murthy Jatavallabhula,Gengshan Yang,Sebastian Scherer,Deva Ramanan,Jonathon Luiten |
発行日 | 2023-12-04 18:53:24+00:00 |
arxivサイト | arxiv_id(pdf) |