LP-SLAM: Language-Perceptive RGB-D SLAM system based on Large Language Model

要約

位置推定とマッピングの同時実行 (SLAM) は、自律型ロボットが周囲の環境を認識できるようにするための重要なテクノロジです。
ディープ ラーニングの開発により、SLAM システムは、セマンティック レベルやテキスト レベルなど、より高いレベルの環境認識を実現できます。
しかし、現在の作品は、自然言語レベルの世界認識を達成する能力が限られています。
この制限に対処するために、大規模言語モデル (LLM) を活用する最初の言語知覚 SLAM システムである LP-SLAM を提案します。
LP-SLAM には 2 つの主要な機能があります。(a) シーン内のテキストを検出し、追跡およびマッピング フェーズ中に保存されるランドマークを表しているかどうかを判断できます。(b) 人間からの自然言語入力を理解し、ガイダンスを提供できます。
生成されたマップに基づいています。
テキスト クラスター、ランドマークの判断、自然言語ナビゲーションなど、システムにおける LLM の 3 つの使用法を説明しました。
私たちが提案するシステムは、LLM ベースの SLAM の分野における進歩を表し、自律型ロボットがより自然で直感的な方法で環境と対話する新しい可能性を開きます。

要約(オリジナル)

Simultaneous localization and mapping (SLAM) is a critical technology that enables autonomous robots to be aware of their surrounding environment. With the development of deep learning, SLAM systems can achieve a higher level of perception of the environment, including the semantic and text levels. However, current works are limited in their ability to achieve a natural-language level of perception of the world. To address this limitation, we propose LP-SLAM, the first language-perceptive SLAM system that leverages large language models (LLMs). LP-SLAM has two major features: (a) it can detect text in the scene and determine whether it represents a landmark to be stored during the tracking and mapping phase, and (b) it can understand natural language input from humans and provide guidance based on the generated map. We illustrated three usages of the LLM in the system including text cluster, landmark judgment, and natural language navigation. Our proposed system represents an advancement in the field of LLMs based SLAM and opens up new possibilities for autonomous robots to interact with their environment in a more natural and intuitive way.

arxiv情報

著者 Weiyi Zhang,Yushi Guo,Liting Niu,Peijun Li,Chun Zhang,Zeyu Wan,Jiaxiang Yan,Fasih Ud Din Farrukh,Debing Zhang
発行日 2023-03-17 16:12:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク