要約
人間は、エピソード シミュレーションとエピソード記憶を使用して、なじみのない環境をナビゲートします。これにより、環境とオブジェクトの間の複雑な関係をより深く理解できます。
人間のメカニズムにインスピレーションを得た想像力豊かな記憶システムを開発すると、目に見えない環境での身体化されたエージェントのナビゲーション性能を向上させることができます。
ただし、既存の視覚と言語ナビゲーション (VLN) エージェントには、この種の記憶メカニズムがありません。
これに対処するために、エージェントに現実と想像のハイブリッドメモリシステムを装備する新しいアーキテクチャを提案します。
このシステムにより、エージェントは想像力豊かなメカニズムとナビゲーション アクションの両方を通じて記憶を維持し、拡張することができます。
さらに、エージェントの想像力を開発するために、カスタマイズされた事前トレーニング タスクを設計します。
当社のエージェントは、将来のシーンに向けて高忠実度の RGB 画像を想像し、パス長 (SPL) で重み付けされた成功率で最先端の結果を達成します。
要約(オリジナル)
Humans navigate unfamiliar environments using episodic simulation and episodic memory, which facilitate a deeper understanding of the complex relationships between environments and objects. Developing an imaginative memory system inspired by human mechanisms can enhance the navigation performance of embodied agents in unseen environments. However, existing Vision-and-Language Navigation (VLN) agents lack a memory mechanism of this kind. To address this, we propose a novel architecture that equips agents with a reality-imagination hybrid memory system. This system enables agents to maintain and expand their memory through both imaginative mechanisms and navigation actions. Additionally, we design tailored pre-training tasks to develop the agent’s imaginative capabilities. Our agent can imagine high-fidelity RGB images for future scenes, achieving state-of-the-art result in Success rate weighted by Path Length (SPL).
arxiv情報
著者 | Yiyuan Pan,Yunzhe Xu,Zhe Liu,Hesheng Wang |
発行日 | 2024-12-25 08:59:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google