MUTE-SLAM: Real-Time Neural SLAM with Multiple Tri-Plane Hash Representations

要約

効率的なシーン表現のために複数のトライプレーン ハッシュ エンコーディングを採用したリアルタイム ニューラル RGB-D SLAM システムである MUTE-SLAM を紹介します。
MUTE-SLAM は、カメラの位置を効果的に追跡し、小規模と大規模の両方の屋内環境向けにスケーラブルなマルチマップ表現を段階的に構築します。
新たに観測された局所領域にサブマップを動的に割り当て、事前のシーン情報なしで制約のないマッピングを可能にします。
従来のグリッドベースの方法とは異なり、シーン プロパティのハッシュ エンコードに 3 つの直交する軸が整列した平面を使用し、ハッシュの衝突とトレーニング可能なパラメーターの数を大幅に削減します。
このハイブリッド アプローチは、収束を高速化するだけでなく、表面再構成の忠実性も高めます。
さらに、私たちの最適化戦略は、現在のカメラ錐台と交差するすべてのサブマップを同時に最適化し、グローバルな一貫性を確保します。
現実世界と合成データセットの両方での広範なテストにより、MUTE-SLAM がさまざまな屋内設定にわたって最先端の表面再構築品質と競争力のある追跡パフォーマンスを提供することが示されました。
コードは論文が受理され次第公開されます。

要約(オリジナル)

We introduce MUTE-SLAM, a real-time neural RGB-D SLAM system employing multiple tri-plane hash-encodings for efficient scene representation. MUTE-SLAM effectively tracks camera positions and incrementally builds a scalable multi-map representation for both small and large indoor environments. It dynamically allocates sub-maps for newly observed local regions, enabling constraint-free mapping without prior scene information. Unlike traditional grid-based methods, we use three orthogonal axis-aligned planes for hash-encoding scene properties, significantly reducing hash collisions and the number of trainable parameters. This hybrid approach not only speeds up convergence but also enhances the fidelity of surface reconstruction. Furthermore, our optimization strategy concurrently optimizes all sub-maps intersecting with the current camera frustum, ensuring global consistency. Extensive testing on both real-world and synthetic datasets has shown that MUTE-SLAM delivers state-of-the-art surface reconstruction quality and competitive tracking performance across diverse indoor settings. The code will be made public upon acceptance of the paper.

arxiv情報

著者 Yifan Yan,Ruomin He,Zhenghua Liu
発行日 2024-03-26 14:53:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク