LLM Augmented Hierarchical Agents

要約

強化学習 (RL) を使用して長期的かつ時間的に拡張されたタスクを解決することは困難であり、事前知識なしで学習する (またはタブララサ学習) という一般的な慣行によってさらに困難が増します。
人間は、問題をゼロから解決することはほとんどないため、時間的に拡張されたアクションで計画を作成および実行でき、新しいタスクの実行方法をすぐに学習できます。
私たちは自律エージェントにもこれと同じ能力を持たせたいと考えています。
最近、LLM が世界に関する膨大な量の知識をエンコードし、コンテキスト内で優れた学習と推論を実行することが示されました。
ただし、LLM を使用して現実の問題を解決することは、現在のタスクに基づいていないため、困難です。
このペーパーでは、RL を使用して環境からの学習を提供しながら、LLM の計画機能を活用し、長期的なタスクを解決するために LLM を使用する階層型エージェントを実現します。
LLM に完全に依存するのではなく、LLM は高レベルのポリシーをガイドし、サンプルの学習を大幅に効率化します。
このアプローチは、MiniGrid、SkillHack、Crafter などのシミュレーション環境と、ブロック操作タスクの実際のロボット アームで評価されます。
私たちのアプローチを使用してトレーニングされたエージェントは他のベースライン方法よりも優れたパフォーマンスを示し、一度トレーニングされれば、展開中に LLM にアクセスする必要がないことがわかります。

要約(オリジナル)

Solving long-horizon, temporally-extended tasks using Reinforcement Learning (RL) is challenging, compounded by the common practice of learning without prior knowledge (or tabula rasa learning). Humans can generate and execute plans with temporally-extended actions and quickly learn to perform new tasks because we almost never solve problems from scratch. We want autonomous agents to have this same ability. Recently, LLMs have been shown to encode a tremendous amount of knowledge about the world and to perform impressive in-context learning and reasoning. However, using LLMs to solve real world problems is hard because they are not grounded in the current task. In this paper we exploit the planning capabilities of LLMs while using RL to provide learning from the environment, resulting in a hierarchical agent that uses LLMs to solve long-horizon tasks. Instead of completely relying on LLMs, they guide a high-level policy, making learning significantly more sample efficient. This approach is evaluated in simulation environments such as MiniGrid, SkillHack, and Crafter, and on a real robot arm in block manipulation tasks. We show that agents trained using our approach outperform other baselines methods and, once trained, don’t need access to LLMs during deployment.

arxiv情報

著者 Bharat Prakash,Tim Oates,Tinoosh Mohsenin
発行日 2023-11-09 18:54:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク