MapGPT: Map-Guided Prompting with Adaptive Path Planning for Vision-and-Language Navigation

要約

GPT を脳として備えた実体化エージェントは、さまざまなタスクにわたって並外れた意思決定能力と一般化能力を発揮しました。
しかし、視覚と言語のナビゲーション (VLN) 用の既存のゼロショット エージェントは、エージェントが環境全体を理解するための効果的な「グローバル ビュー」を構築せずに、GPT-4 にローカライズされた環境内の潜在的な場所を選択するよう促すだけです。
この研究では、MapGPT と呼ばれる新しい地図ガイド型 GPT ベースのエージェントを紹介します。これは、地球規模の探索を促進するために言語で形成されたオンライン地図を導入します。
具体的には、オンライン マップを構築し、それをノード情報やトポロジ関係を含むプロンプトに組み込んで、GPT が空間環境を理解できるようにします。
この設計の利点を活用して、エージェントがマップに基づいてマルチステップのパス計画を実行し、複数の候補ノードまたはサブゴールを段階的に体系的に探索するのを支援する適応計画メカニズムをさらに提案します。
広範な実験により、MapGPT が GPT-4 と GPT-4V の両方に適用可能であり、R2R と REVERIE で最先端のゼロショット パフォーマンスを同時に達成 (SR で最大 10% および最大 12% 向上) することが実証されました。
GPT の新たに出現したグローバルな思考と進路計画能力を紹介します。

要約(オリジナル)

Embodied agents equipped with GPT as their brain have exhibited extraordinary decision-making and generalization abilities across various tasks. However, existing zero-shot agents for vision-and-language navigation (VLN) only prompt the GPT-4 to select potential locations within localized environments, without constructing an effective ‘global-view’ for the agent to understand the overall environment. In this work, we present a novel map-guided GPT-based agent, dubbed MapGPT, which introduces an online linguistic-formed map to encourage the global exploration. Specifically, we build an online map and incorporate it into the prompts that include node information and topological relationships, to help GPT understand the spatial environment. Benefiting from this design, we further propose an adaptive planning mechanism to assist the agent in performing multi-step path planning based on a map, systematically exploring multiple candidate nodes or sub-goals step by step. Extensive experiments demonstrate that our MapGPT is applicable to both GPT-4 and GPT-4V, achieving state-of-the-art zero-shot performance on the R2R and REVERIE simultaneously (~10% and ~12% improvements in SR), and showcasing the newly emerged global thinking and path planning abilities of the GPT.

arxiv情報

著者 Jiaqi Chen,Bingqian Lin,Ran Xu,Zhenhua Chai,Xiaodan Liang,Kwan-Yee K. Wong
発行日 2024-02-25 14:39:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク