人間は、エピソード シミュレーションとエピソード記憶を使用して、なじみのない環境をナビゲートします。これにより、環境とオブジェクトの間の複雑な関係をより深く理解できます。
ただし、既存の視覚と言語ナビゲーション (VLN) エージェントには、この種の記憶メカニズムがありません。
このシステムにより、エージェントは想像力豊かなメカニズムとナビゲーション アクションの両方を通じて記憶を維持し、拡張することができます。
さらに、エージェントの想像力を開発するために、カスタマイズされた事前トレーニング タスクを設計します。
当社のエージェントは、将来のシーンに向けて高忠実度の RGB 画像を想像し、パス長 (SPL) で重み付けされた成功率で最先端の結果を達成します。
Humans navigate unfamiliar environments using episodic simulation and episodic memory, which facilitate a deeper understanding of the complex relationships between environments and objects. Developing an imaginative memory system inspired by human mechanisms can enhance the navigation performance of embodied agents in unseen environments. However, existing Vision-and-Language Navigation (VLN) agents lack a memory mechanism of this kind. To address this, we propose a novel architecture that equips agents with a reality-imagination hybrid memory system. This system enables agents to maintain and expand their memory through both imaginative mechanisms and navigation actions. Additionally, we design tailored pre-training tasks to develop the agent’s imaginative capabilities. Our agent can imagine high-fidelity RGB images for future scenes, achieving state-of-the-art result in Success rate weighted by Path Length (SPL).
著者 | Yiyuan Pan,Yunzhe Xu,Zhe Liu,Hesheng Wang |
発行日 | 2024-12-25 08:59:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google