Vision-Language Navigation with Continual Learning

要約

ビジョン言語ナビゲーション (VLN) は、組み込みインテリジェンス内の重要な領域であり、エージェントが自然言語の指示に基づいて 3D 環境をナビゲートする必要があります。
従来の VLN 研究は、環境の理解と意思決定の精度を向上させることに焦点を当ててきました。
ただし、これらのアプローチは、主にトレーニングデータの多様性が限られているために、エージェントが新しい環境に展開されると、パフォーマンスに大きなギャップが生じることがよくあります。
より広範囲の環境をカバーするためにデータセットを拡張することは非現実的であり、コストがかかります。
私たちは、この課題に対処するために、継続学習を伴う視覚言語ナビゲーション (VLNCL) パラダイムを提案します。
このパラダイムでは、エージェントは以前に取得した知識を保持しながら、新しい環境を段階的に学習します。
VLNCL を使用すると、エージェントは環境の記憶を維持し、関連する知識を抽出できるため、既存の情報を維持しながら新しい環境に迅速に適応できます。
VLN エージェントと統合された脳記憶再生メカニズムにヒントを得た、新しいデュアルループシナリオ再生方法 (デュアル SR) を紹介します。
この方法により、過去の経験の統合が容易になり、新しいタスク全体の一般化が強化されます。
マルチシナリオメモリバッファを利用することで、エージェントはタスクメモリを効率的に整理して再生することで、新しい環境に迅速に適応する能力を強化し、致命的な忘れを軽減します。
私たちの研究は、VLN エージェントの継続的な学習の先駆者であり、新しい実験設定と評価指標を導入しています。
私たちは広範な評価を通じてアプローチの有効性を実証し、VLNCL パラダイムのベンチマークを確立します。
既存の継続学習および VLN 手法との比較実験では、大幅な改善が示され、継続学習能力において最先端のパフォーマンスが達成され、事前の知識を維持しながら迅速な適応を可能にする私たちのアプローチの可能性が強調されています。

要約(オリジナル)

Vision-language navigation (VLN) is a critical domain within embedded intelligence, requiring agents to navigate 3D environments based on natural language instructions. Traditional VLN research has focused on improving environmental understanding and decision accuracy. However, these approaches often exhibit a significant performance gap when agents are deployed in novel environments, mainly due to the limited diversity of training data. Expanding datasets to cover a broader range of environments is impractical and costly. We propose the Vision-Language Navigation with Continual Learning (VLNCL) paradigm to address this challenge. In this paradigm, agents incrementally learn new environments while retaining previously acquired knowledge. VLNCL enables agents to maintain an environmental memory and extract relevant knowledge, allowing rapid adaptation to new environments while preserving existing information. We introduce a novel dual-loop scenario replay method (Dual-SR) inspired by brain memory replay mechanisms integrated with VLN agents. This method facilitates consolidating past experiences and enhances generalization across new tasks. By utilizing a multi-scenario memory buffer, the agent efficiently organizes and replays task memories, thereby bolstering its ability to adapt quickly to new environments and mitigating catastrophic forgetting. Our work pioneers continual learning in VLN agents, introducing a novel experimental setup and evaluation metrics. We demonstrate the effectiveness of our approach through extensive evaluations and establish a benchmark for the VLNCL paradigm. Comparative experiments with existing continual learning and VLN methods show significant improvements, achieving state-of-the-art performance in continual learning ability and highlighting the potential of our approach in enabling rapid adaptation while preserving prior knowledge.

arxiv情報

著者	Zhiyuan Li,Yanfeng Lv,Ziqin Tu,Di Shang,Hong Qiao
発行日	2024-09-04 09:28:48+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

Vision-Language Navigation with Continual Learning

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー