MapGPT: Map-Guided Prompting for Unified Vision-and-Language Navigation

要約

GPT を脳として装備した実体化エージェントは、さまざまなタスクにわたって並外れた思考力と意思決定能力を発揮します。
しかし、視覚と言語によるナビゲーション (VLN) のための既存のゼロショット エージェントは、GPT に過剰な環境情報を処理させ、局所的な環境内の潜在的な場所を選択するよう促すだけであり、効果的な「グローバル ビュー」 (例: 一般的な視点) を構築することはありません。
-使用されたマップ) をエージェントが全体的な環境を理解できるようにします。
この研究では、ゼロショット VLN タスク用の、MapGPT と呼ばれる新しいマップガイド付き GPT ベースのパス計画エージェントを紹介します。
具体的には、オンラインで構築されたトポロジ マップを、マップに基づいたグローバル探索を促進するプロンプトに変換し、ローカル探索で行き詰ることを避けるために、エージェントにマルチステップ パス プランニングを明示的に出力および更新するよう要求します。
広範な実験により、MapGPT が効果的であることが実証され、R2R データセットと REVERIE データセットの両方で優れたパフォーマンス (成功率はそれぞれ 38.8% と 28.4%) を達成し、GPT モデルの新たに出現したグローバル思考と経路計画機能が実証されました。
異なるデータセットにわたるさまざまな命令スタイルに対応するには、個別のパラメーターの微調整や特定のプロンプト設計が必要だった以前の VLN エージェントとは異なり、当社の MapGPT は、さまざまな命令スタイルにシームレスに適応できるため、より統合されており、これはこの分野では初のことです。

要約(オリジナル)

Embodied agents equipped with GPT as their brain have exhibited extraordinary thinking and decision-making abilities across various tasks. However, existing zero-shot agents for vision-and-language navigation (VLN) only prompt the GPT to handle excessive environmental information and select potential locations within localized environments, without constructing an effective ”global-view” (e.g., a commonly-used map) for the agent to understand the overall environment. In this work, we present a novel map-guided GPT-based path-planning agent, dubbed MapGPT, for the zero-shot VLN task. Specifically, we convert a topological map constructed online into prompts to encourage map-guided global exploration, and require the agent to explicitly output and update multi-step path planning to avoid getting stuck in local exploration. Extensive experiments demonstrate that our MapGPT is effective, achieving impressive performance on both the R2R and REVERIE datasets (38.8% and 28.4% success rate, respectively) and showcasing the newly emerged global thinking and path planning capabilities of the GPT model. Unlike previous VLN agents, which require separate parameters fine-tuning or specific prompt design to accommodate various instruction styles across different datasets, our MapGPT is more unified as it can adapt to different instruction styles seamlessly, which is the first of its kind in this field.

arxiv情報

著者 Jiaqi Chen,Bingqian Lin,Ran Xu,Zhenhua Chai,Xiaodan Liang,Kwan-Yee K. Wong
発行日 2024-01-14 15:34:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク