NeSLAM: Neural Implicit Mapping and Self-Supervised Feature Tracking With Depth Completion and Denoising

要約

近年、3D 再構成と高密度 RGB-D SLAM システムが大幅に進歩しました。
注目すべき開発の 1 つは、これらのシステムにおける Neural Radiance Fields (NeRF) の適用であり、暗黙的なニューラル表現を利用して 3D シーンをエンコードします。
NeRF の SLAM へのこの拡張は、有望な結果を示しています。
ただし、民生用の RGB-D センサーから得られる深度画像は、まばらでノイズが多いことが多く、これが 3D 再構築に重大な課題をもたらし、シーン ジオメトリの表現の精度に影響を与えます。
さらに、占有値を含む元の階層フィーチャ グリッドは、シーン ジオメトリ表現としては不正確です。
さらに、既存の方法はカメラ追跡用にランダムなピクセルを選択するため、位置特定が不正確になり、現実世界の屋内環境では堅牢ではありません。
この目的を達成するために、正確で緻密な深度推定、堅牢なカメラ追跡、新しいビューの現実的な合成を実現する高度なフレームワークである NeSLAM を紹介します。
まず、深度補完およびノイズ除去ネットワークは、事前に密なジオメトリを提供し、ニューラルの暗黙的表現の最適化をガイドするように設計されています。
第 2 に、占有シーン表現は、高品質の再構成とビュー合成のために、符号付き距離フィールド (SDF) 階層的シーン表現に置き換えられます。
さらに、堅牢なリアルタイム追跡のための NeRF ベースの自己教師あり特徴追跡アルゴリズムも提案します。
さまざまな屋内データセットの実験により、再構成、追跡品質、および新しいビューの合成におけるシステムの有効性と精度が実証されています。

要約(オリジナル)

In recent years, there have been significant advancements in 3D reconstruction and dense RGB-D SLAM systems. One notable development is the application of Neural Radiance Fields (NeRF) in these systems, which utilizes implicit neural representation to encode 3D scenes. This extension of NeRF to SLAM has shown promising results. However, the depth images obtained from consumer-grade RGB-D sensors are often sparse and noisy, which poses significant challenges for 3D reconstruction and affects the accuracy of the representation of the scene geometry. Moreover, the original hierarchical feature grid with occupancy value is inaccurate for scene geometry representation. Furthermore, the existing methods select random pixels for camera tracking, which leads to inaccurate localization and is not robust in real-world indoor environments. To this end, we present NeSLAM, an advanced framework that achieves accurate and dense depth estimation, robust camera tracking, and realistic synthesis of novel views. First, a depth completion and denoising network is designed to provide dense geometry prior and guide the neural implicit representation optimization. Second, the occupancy scene representation is replaced with Signed Distance Field (SDF) hierarchical scene representation for high-quality reconstruction and view synthesis. Furthermore, we also propose a NeRF-based self-supervised feature tracking algorithm for robust real-time tracking. Experiments on various indoor datasets demonstrate the effectiveness and accuracy of the system in reconstruction, tracking quality, and novel view synthesis.

arxiv情報

著者 Tianchen Deng,Yanbo Wang,Hongle Xie,Hesheng Wang,Jingchuan Wang,Danwei Wang,Weidong Chen
発行日 2024-03-29 07:59:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク