Perceive, Reflect, and Plan: Designing LLM Agent for Goal-Directed City Navigation without Instructions

要約

この論文では、都市ナビゲーションのシナリオを検討します。AI エージェントには、いくつかのよく知られたランドマークに関する目標位置の言語説明が提供されます。
エージェントは、ランドマークや道路網の接続を認識するなど、周囲の状況を観察するだけで、指示なしに目標位置に移動するための決定を下す必要があります。
この問題は、エージェントが自己位置を確立し、ランドマークが見えないことが多い複雑な都市環境の空間表現を取得する必要があるため、非常に困難です。
ナビゲーション指示がない場合、長距離の都市ナビゲーションにおいてエージェントが質の高い意思決定を行うには、このような能力が不可欠です。
大規模言語モデル (LLM) の創発的な推論能力により、LLM が各観察に「反応」し、それに応じて決定を下すように促すことが魅力的なベースラインになります。
ただし、このベースラインのパフォーマンスは非常に低く、エージェントが同じ場所を繰り返し訪問し、近視眼的で一貫性のない決定を下すことがよくあります。
これらの問題に対処するために、この文書では、認識、反映、計画する機能を特徴とする新しいエージェント ワークフローを紹介します。
具体的には、LLaVA-7B を微調整して、都市ナビゲーションに十分な精度でランドマークの方向と距離を認識できることがわかりました。
さらに、振り返りは記憶メカニズムを通じて実現され、過去の経験が保存され、効果的な意思決定の議論のために現在の認識で検索することができます。
計画では、反映結果を使用して長期計画を作成します。これにより、長距離航行における近視眼的な決定を回避できます。
設計されたワークフローが、最先端のベースラインと比較して、LLM エージェントのナビゲーション能力を大幅に向上させることを示します。

要約(オリジナル)

This paper considers a scenario in city navigation: an AI agent is provided with language descriptions of the goal location with respect to some well-known landmarks; By only observing the scene around, including recognizing landmarks and road network connections, the agent has to make decisions to navigate to the goal location without instructions. This problem is very challenging, because it requires agent to establish self-position and acquire spatial representation of complex urban environment, where landmarks are often invisible. In the absence of navigation instructions, such abilities are vital for the agent to make high-quality decisions in long-range city navigation. With the emergent reasoning ability of large language models (LLMs), a tempting baseline is to prompt LLMs to ‘react’ on each observation and make decisions accordingly. However, this baseline has very poor performance that the agent often repeatedly visits same locations and make short-sighted, inconsistent decisions. To address these issues, this paper introduces a novel agentic workflow featured by its abilities to perceive, reflect and plan. Specifically, we find LLaVA-7B can be fine-tuned to perceive the direction and distance of landmarks with sufficient accuracy for city navigation. Moreover, reflection is achieved through a memory mechanism, where past experiences are stored and can be retrieved with current perception for effective decision argumentation. Planning uses reflection results to produce long-term plans, which can avoid short-sighted decisions in long-range navigation. We show the designed workflow significantly improves navigation ability of the LLM agent compared with the state-of-the-art baselines.

arxiv情報

著者 Qingbin Zeng,Qinglong Yang,Shunan Dong,Heming Du,Liang Zheng,Fengli Xu,Yong Li
発行日 2024-09-05 16:14:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク