PLGSLAM: Progressive Neural Scene Represenation with Local to Global Bundle Adjustment

要約

ニューラル暗黙的シーン表現は、最近、密な視覚的 SLAM において有望な結果を示しています。
ただし、既存の方法では、大規模な屋内シーンや長いシーケンスにスケールアップすると、低品質のシーン再構築と低精度の位置特定パフォーマンスが発生します。
これらの制限は主に、有限の容量を持つ単一のグローバル放射フィールドが原因であり、大規模なシナリオには適応できません。
エンドツーエンドのポーズ ネットワークも、大規模なシーンで累積エラーが増大するため、十分に堅牢ではありません。
この目的を達成するために、我々は、リアルタイムで高忠実度の表面再構築と堅牢なカメラ追跡を実行するニューラルビジュアル SLAM システムである PLGSLAM を紹介します。
大規模な屋内シーンを処理するために、PLGSLAM は、ローカル スライディング ウィンドウ内のフレームでトレーニングされた新しいローカル シーン表現を動的に割り当てるプログレッシブ シーン表現方法を提案します。
これにより、より大きな屋内シーンにスケールアップでき、堅牢性が向上します (ポーズ ドリフト下でも)。
ローカル シーンの表現では、PLGSLAM はローカルの高周波特徴にトライプレーンを利用します。
また、低周波機能、滑らかさ、および観測されていない領域でのシーンの完成のために、多層パーセプトロン (MLP) ネットワークも組み込まれています。
さらに、長いシーケンスで増加するポーズのドリフトに対処するために、グローバル キーフレーム データベースを使用したローカルからグローバルへのバンドル調整方法を提案します。
実験結果は、PLGSLAM がさまざまなデータセットおよびシナリオ (小規模および大規模の屋内環境の両方) にわたって最先端のシーン再構築結果と追跡パフォーマンスを達成することを示しています。
コードは書類が受理され次第、オープンソース化されます。

要約(オリジナル)

Neural implicit scene representations have recently shown encouraging results in dense visual SLAM. However, existing methods produce low-quality scene reconstruction and low-accuracy localization performance when scaling up to large indoor scenes and long sequences. These limitations are mainly due to their single, global radiance field with finite capacity, which does not adapt to large scenarios. Their end-to-end pose networks are also not robust enough with the growth of cumulative errors in large scenes. To this end, we present PLGSLAM, a neural visual SLAM system which performs high-fidelity surface reconstruction and robust camera tracking in real time. To handle large-scale indoor scenes, PLGSLAM proposes a progressive scene representation method which dynamically allocates new local scene representation trained with frames within a local sliding window. This allows us to scale up to larger indoor scenes and improves robustness (even under pose drifts). In local scene representation, PLGSLAM utilizes tri-planes for local high-frequency features. We also incorporate multi-layer perceptron (MLP) networks for the low-frequency feature, smoothness, and scene completion in unobserved areas. Moreover, we propose local-to-global bundle adjustment method with a global keyframe database to address the increased pose drifts on long sequences. Experimental results demonstrate that PLGSLAM achieves state-of-the-art scene reconstruction results and tracking performance across various datasets and scenarios (both in small and large-scale indoor environments). The code will be open-sourced upon paper acceptance.

arxiv情報

著者 Tianchen Deng,Guole Shen,Tong Qin,Jianyu Wang,Wentao Zhao,Jingchuan Wang,Danwei Wang,Weidong Chen
発行日 2023-12-15 15:09:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク