要約
大規模言語モデル(LLM)は、ロボット操作やナビゲーションを含む様々なタスクにおいて、言語命令を実行するように具現化されたエージェントを誘導する上で大きな可能性を示している。しかし、既存の手法は主に静的な環境向けに設計されており、エージェント自身の経験を活用して初期計画を改良することはできない。実世界の環境が本質的に確率的であることを考えると、LLMの一般的な知識のみに基づく初期計画は、静的なシナリオの場合とは異なり、目的を達成できない可能性がある。この限界に対処するため、本研究では、人間の感情的な反応からヒントを得て、LLMの知識だけでなく、エージェントの実世界での経験も統合した経験・感情マップ(E2Map)を導入する。提案手法は、エージェントの経験に基づいてE2Mapを更新することで、一発的な行動調整を可能にする。シミュレーションと実世界のシナリオの両方を含む確率的なナビゲーション環境における評価により、提案手法は、既存のLLMベースのアプローチと比較して、確率的な環境における性能を大幅に向上させることが実証された。コードと補足資料はhttps://e2map.github.io/。
要約(オリジナル)
Large language models (LLMs) have shown significant potential in guiding embodied agents to execute language instructions across a range of tasks, including robotic manipulation and navigation. However, existing methods are primarily designed for static environments and do not leverage the agent’s own experiences to refine its initial plans. Given that real-world environments are inherently stochastic, initial plans based solely on LLMs’ general knowledge may fail to achieve their objectives, unlike in static scenarios. To address this limitation, this study introduces the Experience-and-Emotion Map (E2Map), which integrates not only LLM knowledge but also the agent’s real-world experiences, drawing inspiration from human emotional responses. The proposed methodology enables one-shot behavior adjustments by updating the E2Map based on the agent’s experiences. Our evaluation in stochastic navigation environments, including both simulations and real-world scenarios, demonstrates that the proposed method significantly enhances performance in stochastic environments compared to existing LLM-based approaches. Code and supplementary materials are available at https://e2map.github.io/.
arxiv情報
著者 | Chan Kim,Keonwoo Kim,Mintaek Oh,Hanbi Baek,Jiyang Lee,Donghwi Jung,Soojin Woo,Younkyung Woo,John Tucker,Roya Firoozi,Seung-Woo Seo,Mac Schwager,Seong-Woo Kim |
発行日 | 2025-02-03 01:26:49+00:00 |
arxivサイト | arxiv_id(pdf) |