要約
我々は、正確なセマンティックマッピング、高品質の表面再構成、および堅牢なカメラ追跡を同時に実行する、ニューラル暗黙的表現を利用したセマンティックSLAMシステムであるSNI-SLAMを提案します。
このシステムでは、階層的意味表現を導入して、シーンのトップダウン構造の意味論的マッピングに対するマルチレベルの意味論的理解を可能にします。
さらに、環境の複数の属性間の相関関係を最大限に活用するために、機能のコラボレーションのためのクロスアテンションを通じて、外観、ジオメトリ、およびセマンティック機能を統合します。
この戦略により、環境をより多面的に理解できるようになり、単一の属性に欠陥がある場合でも SNI-SLAM の堅牢性を維持できるようになります。
次に、内部の融合ベースのデコーダを設計して、正確なデコードのためにマルチレベルの特徴からセマンティックな RGB の Truncated Signed Distance Field (TSDF) 値を取得します。
さらに、シーン表現を特徴レベルで更新する特徴損失を提案します。
RGB 損失や深度損失などの低レベルの損失と比較して、私たちの機能損失はより高いレベルでネットワークの最適化を導くことができます。
当社の SNI-SLAM メソッドは、レプリカおよび ScanNet データセットのマッピングと追跡精度の点で、最近のすべての NeRF ベースの SLAM メソッドよりも優れたパフォーマンスを実証すると同時に、正確なセマンティック セグメンテーションとリアルタイム セマンティック マッピングでも優れた機能を示します。
要約(オリジナル)
We propose SNI-SLAM, a semantic SLAM system utilizing neural implicit representation, that simultaneously performs accurate semantic mapping, high-quality surface reconstruction, and robust camera tracking. In this system, we introduce hierarchical semantic representation to allow multi-level semantic comprehension for top-down structured semantic mapping of the scene. In addition, to fully utilize the correlation between multiple attributes of the environment, we integrate appearance, geometry and semantic features through cross-attention for feature collaboration. This strategy enables a more multifaceted understanding of the environment, thereby allowing SNI-SLAM to remain robust even when single attribute is defective. Then, we design an internal fusion-based decoder to obtain semantic, RGB, Truncated Signed Distance Field (TSDF) values from multi-level features for accurate decoding. Furthermore, we propose a feature loss to update the scene representation at the feature level. Compared with low-level losses such as RGB loss and depth loss, our feature loss is capable of guiding the network optimization on a higher-level. Our SNI-SLAM method demonstrates superior performance over all recent NeRF-based SLAM methods in terms of mapping and tracking accuracy on Replica and ScanNet datasets, while also showing excellent capabilities in accurate semantic segmentation and real-time semantic mapping.
arxiv情報
著者 | Siting Zhu,Guangming Wang,Hermann Blum,Jiuming Liu,Liang Song,Marc Pollefeys,Hesheng Wang |
発行日 | 2024-03-06 13:09:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google