要約
3D世界で正確なグローバルな3Dセマンティックマッピング、スケーリングアップ機能、明示的なセマンティックラベル予測を可能にする、新しい階層的なカテゴリ表現を特徴とするセマンティック3DガウススプラッティングスラムメソッドであるHier-Slamを提案します。
セマンティックスラムシステムでのパラメーターの使用は、環境の複雑さの高まりにより大幅に増加し、シーンの理解に特に挑戦的で費用がかかります。
この問題に対処するために、コンパクトな形式でセマンティック情報を3Dガウススプラッティングにエンコードする新しい階層表現を導入し、大規模な言語モデル(LLM)の機能を活用します。
さらに、レベル間およびクロスレベルの両方の最適化を通じて、階層的セマンティック情報を最適化するために設計された新しいセマンティック損失を導入します。
さらに、スラムシステム全体を強化し、追跡とマッピングのパフォーマンスが向上します。
Hier-Slamは、2倍の操作スピードアップを達成しながら、マッピングと追跡の両方の精度の両方で既存の密なSLAMメソッドを上回ります。
さらに、小さな合成シーンでのセマンティックセグメンテーションのレンダリングで競争力のあるパフォーマンスを示し、ストレージとトレーニングの要件が大幅に削減されました。
FPSをレンダリングすると、セマンティック情報で2,000に達し、3,000がそれなしで2,000に達します。
最も注目すべきは、500を超えるセマンティッククラスで複雑な現実世界のシーンを処理する機能を紹介し、貴重なスケーリングアップ機能を強調しています。
要約(オリジナル)
We propose Hier-SLAM, a semantic 3D Gaussian Splatting SLAM method featuring a novel hierarchical categorical representation, which enables accurate global 3D semantic mapping, scaling-up capability, and explicit semantic label prediction in the 3D world. The parameter usage in semantic SLAM systems increases significantly with the growing complexity of the environment, making it particularly challenging and costly for scene understanding. To address this problem, we introduce a novel hierarchical representation that encodes semantic information in a compact form into 3D Gaussian Splatting, leveraging the capabilities of large language models (LLMs). We further introduce a novel semantic loss designed to optimize hierarchical semantic information through both inter-level and cross-level optimization. Furthermore, we enhance the whole SLAM system, resulting in improved tracking and mapping performance. Our Hier-SLAM outperforms existing dense SLAM methods in both mapping and tracking accuracy, while achieving a 2x operation speed-up. Additionally, it exhibits competitive performance in rendering semantic segmentation in small synthetic scenes, with significantly reduced storage and training time requirements. Rendering FPS impressively reaches 2,000 with semantic information and 3,000 without it. Most notably, it showcases the capability of handling the complex real-world scene with more than 500 semantic classes, highlighting its valuable scaling-up capability.
arxiv情報
著者 | Boying Li,Zhixi Cai,Yuan-Fang Li,Ian Reid,Hamid Rezatofighi |
発行日 | 2025-02-20 04:02:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google