Cog-GA: A Large Language Models-based Generative Agent for Vision-Language Navigation in Continuous Environments

要約

継続的環境におけるビジョン言語ナビゲーション (VLN-CE) は、身体化された AI のフロンティアを表しており、エージェントは自然言語の指示のみによって制限のない 3D 空間内を自由に移動することが求められます。
このタスクでは、マルチモーダルな理解、空間推論、意思決定において明確な課題が生じます。
これらの課題に対処するために、VLN-CE タスク向けに調整された大規模言語モデル (LLM) に基づいた生成エージェントである Cog-GA を導入します。
Cog-GA は、人間のような認知プロセスをエミュレートするために 2 つの戦略を採用しています。
まず、時間的、空間的、意味論的要素を統合した認知マップを構築し、それによって LLM 内の空間記憶の発達を促進します。
次に、Cog-GA はウェイポイントの予測メカニズムを採用し、ナビゲーション効率を最大化するために探査軌道を戦略的に最適化します。
各ウェイポイントにはデュアルチャネルのシーンの説明が伴い、脳として環境の手がかりを「何を」と「どこで」ストリームするかに分類されます。
この分離により、エージェントの注意力が強化され、ナビゲーションに関連する空間情報を識別できるようになります。
リフレクティブ メカニズムは、以前のナビゲーション経験からのフィードバックを取得することでこれらの戦略を補完し、継続的な学習と適応的な再計画を促進します。
VLN-CE ベンチマークで行われた広範な評価により、Cog-GA の最先端のパフォーマンスと人間のようなナビゲーション動作をシミュレートする能力が検証されました。
この研究は、戦略的で解釈可能な VLN-CE 薬剤の開発に大きく貢献します。

要約(オリジナル)

Vision Language Navigation in Continuous Environments (VLN-CE) represents a frontier in embodied AI, demanding agents to navigate freely in unbounded 3D spaces solely guided by natural language instructions. This task introduces distinct challenges in multimodal comprehension, spatial reasoning, and decision-making. To address these challenges, we introduce Cog-GA, a generative agent founded on large language models (LLMs) tailored for VLN-CE tasks. Cog-GA employs a dual-pronged strategy to emulate human-like cognitive processes. Firstly, it constructs a cognitive map, integrating temporal, spatial, and semantic elements, thereby facilitating the development of spatial memory within LLMs. Secondly, Cog-GA employs a predictive mechanism for waypoints, strategically optimizing the exploration trajectory to maximize navigational efficiency. Each waypoint is accompanied by a dual-channel scene description, categorizing environmental cues into ‘what’ and ‘where’ streams as the brain. This segregation enhances the agent’s attentional focus, enabling it to discern pertinent spatial information for navigation. A reflective mechanism complements these strategies by capturing feedback from prior navigation experiences, facilitating continual learning and adaptive replanning. Extensive evaluations conducted on VLN-CE benchmarks validate Cog-GA’s state-of-the-art performance and ability to simulate human-like navigation behaviors. This research significantly contributes to the development of strategic and interpretable VLN-CE agents.

arxiv情報

著者 Zhiyuan Li,Yanfeng Lu,Yao Mu,Hong Qiao
発行日 2024-09-04 08:30:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク