Navigation with Large Language Models: Semantic Guesswork as a Heuristic for Planning

要約

なじみのない環境でのナビゲーションは、ロボットにとって大きな課題となります。マッピングと計画の手法を使用して世界の表現を構築することはできますが、そのような方法でなじみのない環境で目的の目標への道を迅速に発見するには、多くの場合、長時間のマッピングと探索が必要になります。
人間は、セマンティクスを活用することで、新しい環境、特に論理的にレイアウトされた屋内環境を迅速にナビゲートできます。たとえば、キッチンはリビング ルームに隣接していることが多く、出口標識が出口を示しているなどです。
言語モデルはロボットにそのような知識を提供できますが、言語モデルを直接使用してロボットに目的地に到達する方法を指示することも非現実的です。一方、言語モデルは現実に基づいていないため、何らかの目標に到達する方法についての物語を生成する可能性があります。
世界の観察によれば、この物語は恣意的に間違っている可能性があります。
したがって、この論文では、言語モデルによって生成される「意味論的な推測」を、アルゴリズムを計画するための指針となるヒューリスティックとしてどのように利用できるかを研究します。
私たちの手法である言語フロンティア ガイド (LFG) は、言語モデルを使用して、トポロジー マップまたは計量マップのいずれかを使用した計画のための検索ヒューリスティックとして、言語モデルに保存されている意味論的な知識を組み込むことにより、新しい現実世界の環境の探索にバイアスをかけます。
私たちは、困難な現実世界の環境とシミュレートされたベンチマークで LFG を評価し、情報なしでの探索やその他の言語モデルの使用方法よりも優れたパフォーマンスを発揮します。

要約(オリジナル)

Navigation in unfamiliar environments presents a major challenge for robots: while mapping and planning techniques can be used to build up a representation of the world, quickly discovering a path to a desired goal in unfamiliar settings with such methods often requires lengthy mapping and exploration. Humans can rapidly navigate new environments, particularly indoor environments that are laid out logically, by leveraging semantics — e.g., a kitchen often adjoins a living room, an exit sign indicates the way out, and so forth. Language models can provide robots with such knowledge, but directly using language models to instruct a robot how to reach some destination can also be impractical: while language models might produce a narrative about how to reach some goal, because they are not grounded in real-world observations, this narrative might be arbitrarily wrong. Therefore, in this paper we study how the “semantic guesswork” produced by language models can be utilized as a guiding heuristic for planning algorithms. Our method, Language Frontier Guide (LFG), uses the language model to bias exploration of novel real-world environments by incorporating the semantic knowledge stored in language models as a search heuristic for planning with either topological or metric maps. We evaluate LFG in challenging real-world environments and simulated benchmarks, outperforming uninformed exploration and other ways of using language models.

arxiv情報

著者 Dhruv Shah,Michael Equi,Blazej Osinski,Fei Xia,Brian Ichter,Sergey Levine
発行日 2023-10-16 06:21:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.RO パーマリンク