SayNav: Grounding Large Language Models for Dynamic Planning to Navigation in New Environments

要約

自律エージェントが未知の環境で複雑なナビゲーションタスクを実行するためには、意味的推論と動的計画能力が不可欠である。これらのタスクを成功させるためには、人間が持っている大量の常識的知識が必要である。我々は、未知の大規模環境における複雑なナビゲーションタスクを効率的に汎化するために、大規模言語モデル(LLM)から人間の知識を活用する新しいアプローチであるSayNavを発表する。SayNavはLLMへの入力として探索環境の3Dシーングラフを漸進的に構築する新しいグラウンディングメカニズムを用い、ナビゲーションのための実行可能で文脈に適した高レベルの計画を生成する。LLMが生成した計画は、事前に訓練された低レベルプランナによって実行され、各計画ステップは短距離のポイントゴールナビゲーションサブタスクとして扱われます。SayNavはナビゲーション中にステップごとの指示を動的に生成し、新たに認識された情報に基づいて将来のステップを継続的に改良する。我々はSayNavをマルチオブジェクトナビゲーション(Multi-Object Navigation: MultiON)タスクで評価する。また、ProcTHORフレームワークを用いたMultiONタスクのベンチマークデータセットを紹介する。SayNavは最先端の結果を達成し、オラクルベースのベースラインよりも成功率において8%以上優れている。コード、ベンチマークデータセット、デモビデオはhttps://www.sri.com/ics/computer-vision/saynav。

要約(オリジナル)

Semantic reasoning and dynamic planning capabilities are crucial for an autonomous agent to perform complex navigation tasks in unknown environments. It requires a large amount of common-sense knowledge, that humans possess, to succeed in these tasks. We present SayNav, a new approach that leverages human knowledge from Large Language Models (LLMs) for efficient generalization to complex navigation tasks in unknown large-scale environments. SayNav uses a novel grounding mechanism, that incrementally builds a 3D scene graph of the explored environment as inputs to LLMs, for generating feasible and contextually appropriate high-level plans for navigation. The LLM-generated plan is then executed by a pre-trained low-level planner, that treats each planned step as a short-distance point-goal navigation sub-task. SayNav dynamically generates step-by-step instructions during navigation and continuously refines future steps based on newly perceived information. We evaluate SayNav on multi-object navigation (MultiON) task, that requires the agent to utilize a massive amount of human knowledge to efficiently search multiple different objects in an unknown environment. We also introduce a benchmark dataset for MultiON task employing ProcTHOR framework that provides large photo-realistic indoor environments with variety of objects. SayNav achieves state-of-the-art results and even outperforms an oracle based baseline with strong ground-truth assumptions by more than 8% in terms of success rate, highlighting its ability to generate dynamic plans for successfully locating objects in large-scale new environments. The code, benchmark dataset and demonstration videos are accessible at https://www.sri.com/ics/computer-vision/saynav.

arxiv情報

著者 Abhinav Rajvanshi,Karan Sikka,Xiao Lin,Bhoram Lee,Han-Pang Chiu,Alvaro Velasquez
発行日 2024-04-03 20:53:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.RO パーマリンク