SayNav: Grounding Large Language Models for Dynamic Planning to Navigation in New Environments

要約

自律エージェントが未知の環境で複雑なナビゲーションタスクを実行するには、意味論的推論と動的計画機能が不可欠です。
これらの作業を成功させるには、人間が持つ多くの常識的な知識が必要です。
未知の大規模環境における複雑なナビゲーションタスクを効率的に一般化するために、大規模言語モデル (LLM) から得た人間の知識を活用する新しいアプローチである SayNav を紹介します。
SayNav は、実行可能で状況に応じて適切なナビゲーションのための高レベルの計画を生成するために、探索された環境の 3D シーングラフを LLM への入力として段階的に構築する新しいグラウンディングメカニズムを使用します。
LLM で生成された計画は、事前にトレーニングされた低レベルのプランナーによって実行され、計画された各ステップが短距離のポイントからゴールまでのナビゲーションサブタスクとして扱われます。
SayNav は、ナビゲーション中に段階的な指示を動的に生成し、新しく認識された情報に基づいて今後のステップを継続的に改良します。
新しいマルチオブジェクトナビゲーションタスクで SayNav を評価します。このタスクでは、エージェントが膨大な量の人的知識を利用して、未知の環境で複数の異なるオブジェクトを効率的に検索する必要があります。
SayNav は、このタスクの理想的な設定の下で、Oracle ベースの Point-nav ベースラインを上回り、95.35% の成功率 (ベースラインでは 56.06%) を達成しました。これは、大規模な新しいシステムでオブジェクトを正常に配置するための動的な計画を生成する機能を強調しています。
環境。

要約(オリジナル)

Semantic reasoning and dynamic planning capabilities are crucial for an autonomous agent to perform complex navigation tasks in unknown environments. It requires a large amount of common-sense knowledge, that humans possess, to succeed in these tasks. We present SayNav, a new approach that leverages human knowledge from Large Language Models (LLMs) for efficient generalization to complex navigation tasks in unknown large-scale environments. SayNav uses a novel grounding mechanism, that incrementally builds a 3D scene graph of the explored environment as inputs to LLMs, for generating feasible and contextually appropriate high-level plans for navigation. The LLM-generated plan is then executed by a pre-trained low-level planner, that treats each planned step as a short-distance point-goal navigation sub-task. SayNav dynamically generates step-by-step instructions during navigation and continuously refines future steps based on newly perceived information. We evaluate SayNav on a new multi-object navigation task, that requires the agent to utilize a massive amount of human knowledge to efficiently search multiple different objects in an unknown environment. SayNav outperforms an oracle based Point-nav baseline, achieving a success rate of 95.35% (vs 56.06% for the baseline), under the ideal settings on this task, highlighting its ability to generate dynamic plans for successfully locating objects in large-scale new environments.

arxiv情報

著者	Abhinav Rajvanshi,Karan Sikka,Xiao Lin,Bhoram Lee,Han-Pang Chiu,Alvaro Velasquez
発行日	2023-09-08 02:24:37+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

SayNav: Grounding Large Language Models for Dynamic Planning to Navigation in New Environments

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー