MoD-SLAM: Monocular Dense Mapping for Unbounded 3D Scene Reconstruction

要約

単眼 SLAM は、そのシンプルな RGB 入力と複雑なセンサー制約の解除により、多くの注目を集めています。
しかし、既存の単眼 SLAM システムは境界のあるシーン向けに設計されており、SLAM システムの適用性が制限されています。
この制限に対処するために、私たちは、境界のないシーンでリアルタイムで 3D 再構成を可能にする初の単眼 NeRF ベースの高密度マッピング手法である MoD-SLAM を提案します。
具体的には、境界のないシーンをマッピングするという課題を解決するために、ガウスベースの境界のないシーン表現アプローチを導入します。
この戦略は、SLAM アプリケーションを拡張するために不可欠です。
さらに、フロントエンドの深度推定モジュールは、正確な先験的深度値を抽出して、マッピングおよび追跡プロセスを監視するように設計されています。
追跡プロセスに堅牢な深度損失項を導入することにより、当社の SLAM システムは大規模なシーンでより正確な姿勢推定を実現します。
2 つの標準データセットでの実験では、MoD-SLAM が競争力のあるパフォーマンスを実現し、既存の最先端の単眼 SLAM システムと比較して、3D 再構築と位置特定の精度がそれぞれ最大 30% と 15% 向上することが示されました。

要約(オリジナル)

Monocular SLAM has received a lot of attention due to its simple RGB inputs and the lifting of complex sensor constraints. However, existing monocular SLAM systems are designed for bounded scenes, restricting the applicability of SLAM systems. To address this limitation, we propose MoD-SLAM, the first monocular NeRF-based dense mapping method that allows 3D reconstruction in real-time in unbounded scenes. Specifically, we introduce a Gaussian-based unbounded scene representation approach to solve the challenge of mapping scenes without boundaries. This strategy is essential to extend the SLAM application. Moreover, a depth estimation module in the front-end is designed to extract accurate priori depth values to supervise mapping and tracking processes. By introducing a robust depth loss term into the tracking process, our SLAM system achieves more precise pose estimation in large-scale scenes. Our experiments on two standard datasets show that MoD-SLAM achieves competitive performance, improving the accuracy of the 3D reconstruction and localization by up to 30% and 15% respectively compared with existing state-of-the-art monocular SLAM systems.

arxiv情報

著者 Heng Zhou,Zhetao Guo,Shuhong Liu,Lechen Zhang,Qihao Wang,Yuxiang Ren,Mingrui Li
発行日 2024-03-08 18:42:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク