要約
このペーパーでは、大規模な言語モデル(LLMS)の機能を活用して屋内シナリオ用の階層的な3Dシーングラフ(3DSG)を構築する新しいシステムを導入することにより、空間環境をより全体的に理解するために、高度なインテリジェントロボットナビゲーションの高い需要に対処します。
提案されたフレームワークは、豊富なメトリックセマンチックな情報を備えた基本層、オブジェクトノードの正確なポイントクラウド表現、視覚的記述子の表現、および部屋、床、構築ノードの高層層を備えたオブジェクト層で構成される3DSGを構築します。
LLMの革新的なアプリケーションのおかげで、オブジェクトノードだけでなく、高層のノード、たとえば部屋のノードも、インテリジェントで正確な方法で注釈が付けられます。
LLMSを使用した部屋分類のためのポーリングメカニズムは、部屋のノード注釈の精度と信頼性を高めるために提案されています。
徹底的な数値実験は、セマンティックの説明を幾何学的データと統合するシステムの能力を示し、コンテキストを認識したナビゲーションとタスク計画のための環境の正確かつ包括的な表現を作成します。
要約(オリジナル)
This paper addresses the high demand in advanced intelligent robot navigation for a more holistic understanding of spatial environments, by introducing a novel system that harnesses the capabilities of Large Language Models (LLMs) to construct hierarchical 3D Scene Graphs (3DSGs) for indoor scenarios. The proposed framework constructs 3DSGs consisting of a fundamental layer with rich metric-semantic information, an object layer featuring precise point-cloud representation of object nodes as well as visual descriptors, and higher layers of room, floor, and building nodes. Thanks to the innovative application of LLMs, not only object nodes but also nodes of higher layers, e.g., room nodes, are annotated in an intelligent and accurate manner. A polling mechanism for room classification using LLMs is proposed to enhance the accuracy and reliability of the room node annotation. Thorough numerical experiments demonstrate the system’s ability to integrate semantic descriptions with geometric data, creating an accurate and comprehensive representation of the environment instrumental for context-aware navigation and task planning.
arxiv情報
著者 | Yao Cheng,Zhe Han,Fengyang Jiang,Huaizhen Wang,Fengyu Zhou,Qingshan Yin,Lei Wei |
発行日 | 2025-03-19 10:40:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google