MapNav: A Novel Memory Representation via Annotated Semantic Maps for VLM-based Vision-and-Language Navigation

要約

Vision-and-Language Navigation(VLN)は、具体化されたAIの重要なタスクであり、自然言語の指示に従っている間、エージェントが多様で目に見えない環境をナビゲートする必要があります。
従来のアプローチは、意思決定のための時空間コンテキストとして歴史的観察に大きく依存しており、重要なストレージと計算オーバーヘッドにつながります。
この論文では、注釈付きセマンティックマップ(ASM)を活用して履歴フレームを置き換える新しいエンドツーエンドVLNモデルであるMapNavを紹介します。
具体的には、私たちのアプローチは、各エピソードの開始時にトップダウンのセマンティックマップを構築し、各タイムステップで更新し、正確なオブジェクトマッピングと構造化されたナビゲーション情報を可能にします。
次に、主要な領域の明示的なテキストラベルでこのマップを強化し、抽象セマンティクスを明確なナビゲーションキューに変換し、ASMを生成します。
MAPNAVエージェントは、構築されたASMを入力として使用し、VLMの強力なエンドツーエンド機能を使用してVLNをエンパワーします。
広範な実験は、MapNavがシミュレートされた環境と実世界の両方の環境の両方で最先端の(SOTA)パフォーマンスを達成し、私たちの方法の有効性を検証することを示しています。
さらに、ASM生成ソースコードとデータセットをリリースして、再現性を確保し、貴重なリソースをフィールドに提供します。
提案されたMapNavは、VLNの新しいメモリ表現方法として使用できると考えており、この分野での将来の研究への道を開いています。

要約(オリジナル)

Vision-and-language navigation (VLN) is a key task in Embodied AI, requiring agents to navigate diverse and unseen environments while following natural language instructions. Traditional approaches rely heavily on historical observations as spatio-temporal contexts for decision making, leading to significant storage and computational overhead. In this paper, we introduce MapNav, a novel end-to-end VLN model that leverages Annotated Semantic Map (ASM) to replace historical frames. Specifically, our approach constructs a top-down semantic map at the start of each episode and update it at each timestep, allowing for precise object mapping and structured navigation information. Then, we enhance this map with explicit textual labels for key regions, transforming abstract semantics into clear navigation cues and generate our ASM. MapNav agent using the constructed ASM as input, and use the powerful end-to-end capabilities of VLM to empower VLN. Extensive experiments demonstrate that MapNav achieves state-of-the-art (SOTA) performance in both simulated and real-world environments, validating the effectiveness of our method. Moreover, we will release our ASM generation source code and dataset to ensure reproducibility, contributing valuable resources to the field. We believe that our proposed MapNav can be used as a new memory representation method in VLN, paving the way for future research in this field.

arxiv情報

著者 Lingfeng Zhang,Xiaoshuai Hao,Qinwen Xu,Qiang Zhang,Xinyao Zhang,Pengwei Wang,Jing Zhang,Zhongyuan Wang,Shanghang Zhang,Renjing Xu
発行日 2025-02-19 05:52:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク