要約
大規模言語モデル (LLM) は、ロボット操作やナビゲーションを含むさまざまなタスクにわたって言語命令を実行するように身体化されたエージェントを導く上で、大きな可能性を示しています。
ただし、既存の方法は主に静的環境向けに設計されており、エージェント自身の経験を活用して初期計画を改善することはありません。
現実世界の環境は本質的に確率論的であるため、静的シナリオとは異なり、LLM の一般知識のみに基づいた初期計画は目的を達成できない可能性があります。
この制限に対処するために、この研究では、LLM の知識だけでなくエージェントの実世界の経験を統合し、人間の感情的反応からインスピレーションを得たエクスペリエンスと感情マップ (E2Map) を導入しました。
提案された方法論では、エージェントの経験に基づいて E2Map を更新することで、ワンショットの動作調整が可能になります。
シミュレーションと現実世界のシナリオの両方を含む確率的ナビゲーション環境での評価では、提案された方法が既存の LLM ベースのアプローチと比較して確率的環境でのパフォーマンスが大幅に向上することが実証されています。
コードと補足資料は https://e2map.github.io/ で入手できます。
要約(オリジナル)
Large language models (LLMs) have shown significant potential in guiding embodied agents to execute language instructions across a range of tasks, including robotic manipulation and navigation. However, existing methods are primarily designed for static environments and do not leverage the agent’s own experiences to refine its initial plans. Given that real-world environments are inherently stochastic, initial plans based solely on LLMs’ general knowledge may fail to achieve their objectives, unlike in static scenarios. To address this limitation, this study introduces the Experience-and-Emotion Map (E2Map), which integrates not only LLM knowledge but also the agent’s real-world experiences, drawing inspiration from human emotional responses. The proposed methodology enables one-shot behavior adjustments by updating the E2Map based on the agent’s experiences. Our evaluation in stochastic navigation environments, including both simulations and real-world scenarios, demonstrates that the proposed method significantly enhances performance in stochastic environments compared to existing LLM-based approaches. Code and supplementary materials are available at https://e2map.github.io/.
arxiv情報
著者 | Chan Kim,Keonwoo Kim,Mintaek Oh,Hanbi Baek,Jiyang Lee,Donghwi Jung,Soojin Woo,Younkyung Woo,John Tucker,Roya Firoozi,Seung-Woo Seo,Mac Schwager,Seong-Woo Kim |
発行日 | 2024-10-02 00:50:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google