要約
ビジョンと言語ナビゲーション (VLN) タスクでは、エージェントは自然言語の指示に従って目的地に移動する必要があります。
学習ベースのアプローチはこの課題に対する主要な解決策ですが、トレーニングコストが高く、解釈可能性が欠如しているという問題があります。
最近、ラージ言語モデル (LLM) が、その強力な一般化機能により、VLN の有望なツールとして浮上しています。
しかし、既存の LLM ベースの手法は、メモリ構築とナビゲーション戦略の多様性において限界に直面しています。
これらの課題に対処するために、私たちは一連の手法を提案します。
まず、ナビゲーション履歴を保存し、視点、オブジェクト、およびそれらの空間関係に関する情報を保持するトポロジカル マップを維持する方法を紹介します。
このマップはグローバル アクション スペースとしても機能します。
さらに、人間によるナビゲーションの例を活用してナビゲーション戦略の多様性を強化する、ナビゲーション思考連鎖モジュールを紹介します。
最後に、ナビゲーション記憶と戦略を知覚および行動予測モジュールと統合するパイプラインを確立します。
REVERIE および R2R データセットに関する実験結果は、私たちの方法が LLM のナビゲーション能力を効果的に強化し、ナビゲーション推論の解釈可能性を向上させることを示しています。
要約(オリジナル)
In the Vision-and-Language Navigation (VLN) task, the agent is required to navigate to a destination following a natural language instruction. While learning-based approaches have been a major solution to the task, they suffer from high training costs and lack of interpretability. Recently, Large Language Models (LLMs) have emerged as a promising tool for VLN due to their strong generalization capabilities. However, existing LLM-based methods face limitations in memory construction and diversity of navigation strategies. To address these challenges, we propose a suite of techniques. Firstly, we introduce a method to maintain a topological map that stores navigation history, retaining information about viewpoints, objects, and their spatial relationships. This map also serves as a global action space. Additionally, we present a Navigation Chain of Thoughts module, leveraging human navigation examples to enrich navigation strategy diversity. Finally, we establish a pipeline that integrates navigational memory and strategies with perception and action prediction modules. Experimental results on the REVERIE and R2R datasets show that our method effectively enhances the navigation ability of the LLM and improves the interpretability of navigation reasoning.
arxiv情報
著者 | Zhaohuan Zhan,Lisha Yu,Sijie Yu,Guang Tan |
発行日 | 2024-08-12 14:07:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google