Visual SLAM with 3D Gaussian Primitives and Depth Priors Enabling Novel View Synthesis

要約

従来のジオメトリベースの SLAM システムは、通常、データの関連付けが特徴の対応に依存しているため、高密度 3D 再構成機能が不足しています。
さらに、学習ベースの SLAM システムは、リアルタイムのパフォーマンスと精度の点で不十分なことがよくあります。
リアルタイム パフォーマンスと高密度 3D 再構成機能のバランスをとることは、困難な問題です。
この論文では、3D シーン表現と姿勢推定のための新しいビュー合成技術である 3D ガウス スプラッティングを組み込んだリアルタイム RGB-D SLAM システムを提案します。
この手法は、ラスター化を伴う 3D ガウス スプラッティングのリアルタイム レンダリング パフォーマンスを活用し、CUDA 実装を通じてリアルタイムで微分可能な最適化を可能にします。
また、明示的な高密度 3D 再構築のために 3D ガウスからのメッシュ再構築も可能にします。
正確なカメラのポーズを推定するために、逆最適化を備えた回転と平行移動を分離した戦略を利用します。
これには、勾配ベースの最適化を通じて、両方を数回反復して更新することが含まれます。
このプロセスには、既存の 3D ガウス マップを前提として、RGB、深度、およびシルエット マップを区別してレンダリングすることと、測光損失、深度ジオメトリ損失、可視性損失の複合損失を最小限に抑えるためにカメラ パラメータを更新することが含まれます。
ただし、3D ガウス スプラッティング (3DGS) では、3D ガウスのマルチビューの不一致のため、サーフェスを正確に表現するのが難しく、カメラのポーズ推定とシーンの再構成の両方の精度が低下する可能性があります。
これに対処するために、追加の正則化として深度事前分布を利用して幾何学的制約を強制し、それによって姿勢推定と 3D 再構築の両方の精度を向上させます。
また、公開ベンチマーク データセットに関する広範な実験結果も提供し、姿勢精度、幾何学的精度、レンダリング パフォーマンスの点で提案手法の有効性を実証します。

要約(オリジナル)

Conventional geometry-based SLAM systems lack dense 3D reconstruction capabilities since their data association usually relies on feature correspondences. Additionally, learning-based SLAM systems often fall short in terms of real-time performance and accuracy. Balancing real-time performance with dense 3D reconstruction capabilities is a challenging problem. In this paper, we propose a real-time RGB-D SLAM system that incorporates a novel view synthesis technique, 3D Gaussian Splatting, for 3D scene representation and pose estimation. This technique leverages the real-time rendering performance of 3D Gaussian Splatting with rasterization and allows for differentiable optimization in real time through CUDA implementation. We also enable mesh reconstruction from 3D Gaussians for explicit dense 3D reconstruction. To estimate accurate camera poses, we utilize a rotation-translation decoupled strategy with inverse optimization. This involves iteratively updating both in several iterations through gradient-based optimization. This process includes differentiably rendering RGB, depth, and silhouette maps and updating the camera parameters to minimize a combined loss of photometric loss, depth geometry loss, and visibility loss, given the existing 3D Gaussian map. However, 3D Gaussian Splatting (3DGS) struggles to accurately represent surfaces due to the multi-view inconsistency of 3D Gaussians, which can lead to reduced accuracy in both camera pose estimation and scene reconstruction. To address this, we utilize depth priors as additional regularization to enforce geometric constraints, thereby improving the accuracy of both pose estimation and 3D reconstruction. We also provide extensive experimental results on public benchmark datasets to demonstrate the effectiveness of our proposed methods in terms of pose accuracy, geometric accuracy, and rendering performance.

arxiv情報

著者 Zhongche Qu,Zhi Zhang,Cong Liu,Jianhua Yin
発行日 2024-08-21 05:24:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク