要約
タイトル:ニューラル暗黙的密な意味SLAM
要約:
– この論文は、ニューラル暗黙的シーン表現の利点を活用し、屋内シーンに対する知見SLAM問題を解決するための効率的なオンラインフレームワークを提供するものである。
– 類似したメソッドであるNICE-SLAMには、重要な屋内シーン理解問題に適用するにあたっていくつかの重要な実践的制限がある。
– 剛体シーンでは、追跡と3Dマッピングパイプラインの分解によって、堅牢で正確なカメラ運動が計算できる。
– 神経場を使用して、SDF、意味、RGB、デプスの密な多面的シーン表現が記憶効率的に提供される。
– すべてのフレームを使用するのではなく、キーフレームのセットが優れたシーン表現を学習するのに十分であることを実証し、トレーニング時間を改善する。
– 大規模なシーンのためにパイプラインを拡張するために、複数のローカルマッピングネットワークを使用できる。
– 多くの人気のあるベンチマークデータセットでの広範な実験により、ノイズの多い、高密度なデプス測定でも正確なトラッキング、マッピング、意味ラベリングを提供することが示された。
– 後半では、RGBイメージ入力に容易に拡張できることが示されている。
– 全体的に、提案されたパイプラインは、多様なロボットの視覚知覚と関連する問題に役立つ重要なシーン理解タスクの良好な解決策を提供する。
要約(オリジナル)
This paper presents an efficient online framework to solve the well-known semantic Visual Simultaneous Localization and Mapping (V-SLAM) problem for indoor scenes leveraging the advantages of neural implicit scene representation. Existing methods on similar lines, such as NICE-SLAM, has some critical practical limitations to put to use for such an important indoor scene understanding problem. To this end, we contend for the following proposition for modern semantic V-SLAM contrary to existing methods assuming RGB-D frames as input (i) For a rigid scene, robust and accurate camera motion could be computed with disentangled tracking and 3D mapping pipeline. (ii) Using neural fields, a dense and multifaceted scene representation of SDF, semantics, RGB, and depth is provided memory efficiently. (iii) Rather than using every frame, we demonstrate that the set of keyframes is sufficient to learn excellent scene representation, thereby improving the pipeline’s train time. (iv) Multiple local mapping networks could be used to extend the pipeline for large-scale scenes. We show via extensive experiments on several popular benchmark datasets that our approach offers accurate tracking, mapping, and semantic labeling at test time even with noisy and highly sparse depth measurements. Later in the paper, we show that our pipeline can easily extend to RGB image input. Overall, the proposed pipeline offers a favorable solution to an important scene understanding task that can assist in diverse robot visual perception and related problems.
arxiv情報
著者 | Yasaman Haghighi,Suryansh Kumar,Jean Philippe Thiran,Luc Van Gool |
発行日 | 2023-04-27 23:03:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI