Empowering Robotics with Large Language Models: osmAG Map Comprehension with LLMs

要約

最近、ラージ言語モデル (LLM) は、事前にプログラムできない状況に必要な一般知識を提供することで、ロボット アプリケーションにおける大きな可能性を実証しました。
一般に、移動ロボットは位置特定やナビゲーションなどのタスクを実行するために地図を理解する必要があります。
このレターでは、モバイル ロボット工学の分野での適用性を高めるために、テキストベースの地図表現であるエリア グラフを LLM が理解できるようにするという問題について取り上げます。
エリア グラフは、部屋、廊下、建物などのエリアを区切るために多角形を利用した、階層的なトポメトリック セマンティック マップ表現です。
占有グリッド マップや点群などの一般的に使用される地図表現とは対照的に、osmAG (OpensStreetMap 形式のエリア グラフ) は、LLM が自然に読み取り可能な XML テキスト形式で保存されます。
さらに、位置特定や経路計画などの従来のロボット アルゴリズムは osmAG と互換性があり、LLM、従来のロボット アルゴリズム、人間が理解できるこの地図表現を容易にします。
私たちの実験では、適切なマップ表現があれば、LLM がマップを理解し、その理解に基づいてクエリに答える能力を備えていることがわかりました。
LLaMA2 モデルを簡単に微調整した結果、トポロジと階層の理解に関わるタスクにおいて ChatGPT-3.5 を上回りました。
データセット、データセット生成コード、微調整された LoRA アダプターには、https://github.com/xiefusing/LLM-osmAG-Comprehension からアクセスできます。

要約(オリジナル)

Recently, Large Language Models (LLMs) have demonstrated great potential in robotic applications by providing essential general knowledge for situations that can not be pre-programmed beforehand. Generally speaking, mobile robots need to understand maps to execute tasks such as localization or navigation. In this letter, we address the problem of enabling LLMs to comprehend Area Graph, a text-based map representation, in order to enhance their applicability in the field of mobile robotics. Area Graph is a hierarchical, topometric semantic map representation utilizing polygons to demark areas such as rooms, corridors or buildings. In contrast to commonly used map representations, such as occupancy grid maps or point clouds, osmAG (Area Graph in OpensStreetMap format) is stored in a XML textual format naturally readable by LLMs. Furthermore, conventional robotic algorithms such as localization and path planning are compatible with osmAG, facilitating this map representation comprehensible by LLMs, traditional robotic algorithms and humans. Our experiments show that with a proper map representation, LLMs possess the capability to understand maps and answer queries based on that understanding. Following simple fine-tuning of LLaMA2 models, it surpassed ChatGPT-3.5 in tasks involving topology and hierarchy understanding. Our dataset, dataset generation code, fine-tuned LoRA adapters can be accessed at https://github.com/xiefujing/LLM-osmAG-Comprehension.

arxiv情報

著者 Fujing Xie,Sören Schwertfeger
発行日 2024-03-13 04:11:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク