要約
Simultaneous Localization and Mapping (SLAM) の効率的な暗黙的ニューラル表現法である ESLAM を紹介します。
ESLAM は、未知のカメラ ポーズを含む RGB-D フレームを順次読み取り、シーン内の現在のカメラ位置を推定しながらシーン表現を段階的に再構築します。
Neural Radiance Fields (NeRF) の最新の進歩を SLAM システムに組み込み、効率的で正確な高密度視覚 SLAM メソッドを実現します。
私たちのシーン表現は、マルチスケールの軸に沿った垂直フィーチャ プレーンと、連続空間内の各ポイントについて、補間されたフィーチャを切り捨て符号付き距離フィールド (TSDF) と RGB 値にデコードする浅いデコーダで構成されます。
Replica と ScanNet という 2 つの標準データセットと最近のデータセットに関する大規模な実験では、ESLAM が最先端の高密度ビジュアル SLAM 手法の 3D 再構成とカメラ ローカライゼーションの精度を 50% 以上向上させることが示されています。
\times$10 速く、事前トレーニングは必要ありません。
要約(オリジナル)
We present ESLAM, an efficient implicit neural representation method for Simultaneous Localization and Mapping (SLAM). ESLAM reads RGB-D frames with unknown camera poses in a sequential manner and incrementally reconstructs the scene representation while estimating the current camera position in the scene. We incorporate the latest advances in Neural Radiance Fields (NeRF) into a SLAM system, resulting in an efficient and accurate dense visual SLAM method. Our scene representation consists of multi-scale axis-aligned perpendicular feature planes and shallow decoders that, for each point in the continuous space, decode the interpolated features into Truncated Signed Distance Field (TSDF) and RGB values. Our extensive experiments on two standard and recent datasets, Replica and ScanNet, show that ESLAM improves the accuracy of 3D reconstruction and camera localization of state-of-the-art dense visual SLAM methods by more than 50%, while it runs up to $\times$10 faster and does not require any pre-training.
arxiv情報
著者 | Mohammad Mahdi Johari,Camilla Carta,François Fleuret |
発行日 | 2022-11-21 18:25:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google