要約
大規模言語モデル (LLM) は、必須の一般知識を提供することで、ロボット アプリケーションにおける大きな可能性を実証してきました。
移動ロボットは、位置特定やナビゲーションなどのタスクを地図の理解に依存します。
このペーパーでは、LLM がエリア グラフのトポロジと階層を理解できるようにする方法を検討します。エリア グラフは、部屋や建物などのエリアを区切るためにポリゴンを利用した、テキストベースの階層的なトポメトリック セマンティック マップ表現です。
私たちの実験では、適切なマップ表現を使用すると、LLM が面グラフのトポロジと階層を効果的に理解できることが実証されました。
簡単な微調整の後、LLaMA2 モデルはこれらの側面を習得する点で ChatGPT-3.5 を上回りました。
データセット、データセット生成コード、微調整された LoRA アダプターには、https://github.com/xiefusing/LLM-osmAG-Comprehension からアクセスできます。
要約(オリジナル)
Large Language Models (LLMs) have demonstrated great potential in robotic applications by providing essential general knowledge. Mobile robots rely on map comprehension for tasks like localization and navigation. In this paper, we explore enabling LLMs to comprehend the topology and hierarchy of Area Graph, a text-based hierarchical, topometric semantic map representation utilizing polygons to demark areas such as rooms or buildings. Our experiments demonstrate that with the right map representation, LLMs can effectively comprehend Area Graph’s topology and hierarchy. After straightforward fine-tuning, the LLaMA2 models exceeded ChatGPT-3.5 in mastering these aspects. Our dataset, dataset generation code, fine-tuned LoRA adapters can be accessed at https://github.com/xiefujing/LLM-osmAG-Comprehension.
arxiv情報
| 著者 | Fujing Xie,Sören Schwertfeger | 
| 発行日 | 2024-10-24 14:25:03+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
