Hi-SLAM: Scaling-up Semantics in SLAM with a Hierarchically Categorical Gaussian Splatting

要約

我々は、新しい階層的カテゴリ表現を特徴とするセマンティック 3D ガウス スプラッティング SLAM 手法である Hi-SLAM を提案します。これにより、3D 世界での正確なグローバル 3D セマンティック マッピング、スケールアップ機能、および明示的なセマンティック ラベル予測が可能になります。
セマンティック SLAM システムでのパラメータの使用量は、環境の複雑さが増すにつれて大幅に増加しており、シーンの理解が特に困難でコストがかかるものになっています。
この問題に対処するために、大規模言語モデル (LLM) の機能を活用して、コンパクトな形式でセマンティック情報を 3D ガウス スプラッティングにエンコードする新しい階層表現を導入します。
さらに、レベル間最適化とレベル間最適化の両方を通じて階層的意味論的情報を最適化するように設計された新しい意味論的損失を導入します。
さらに、SLAM システム全体を強化し、トラッキングとマッピングのパフォーマンスを向上させました。
当社の Hi-SLAM は、マッピング精度と追跡精度の両方で既存の高密度 SLAM 方式を上回り、2 倍の動作速度向上を達成します。
さらに、ストレージとトレーニング時間の要件を大幅に削減しながら、小さな合成シーンでセマンティック セグメンテーションをレンダリングする際に優れたパフォーマンスを発揮します。
レンダリング FPS は、セマンティック情報を使用すると 2,000、セマンティック情報を使用しない場合は 3,000 に見事に達します。
最も注目すべきは、500 を超えるセマンティック クラスを使用して複雑な現実世界のシーンを処理する機能を示し、その貴重なスケールアップ機能を強調していることです。

要約(オリジナル)

We propose Hi-SLAM, a semantic 3D Gaussian Splatting SLAM method featuring a novel hierarchical categorical representation, which enables accurate global 3D semantic mapping, scaling-up capability, and explicit semantic label prediction in the 3D world. The parameter usage in semantic SLAM systems increases significantly with the growing complexity of the environment, making it particularly challenging and costly for scene understanding. To address this problem, we introduce a novel hierarchical representation that encodes semantic information in a compact form into 3D Gaussian Splatting, leveraging the capabilities of large language models (LLMs). We further introduce a novel semantic loss designed to optimize hierarchical semantic information through both inter-level and cross-level optimization. Furthermore, we enhance the whole SLAM system, resulting in improved tracking and mapping performance. Our Hi-SLAM outperforms existing dense SLAM methods in both mapping and tracking accuracy, while achieving a 2x operation speed-up. Additionally, it exhibits competitive performance in rendering semantic segmentation in small synthetic scenes, with significantly reduced storage and training time requirements. Rendering FPS impressively reaches 2,000 with semantic information and 3,000 without it. Most notably, it showcases the capability of handling the complex real-world scene with more than 500 semantic classes, highlighting its valuable scaling-up capability.

arxiv情報

著者 Boying Li,Zhixi Cai,Yuan-Fang Li,Ian Reid,Hamid Rezatofighi
発行日 2024-10-09 11:48:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク