Large Language Model as a Policy Teacher for Training Reinforcement Learning Agents

要約

最近の研究では、高レベルの命令の提供を通じて複雑な逐次意思決定タスクに対処する上での大規模言語モデル (LLM) の可能性が明らかになりました。
ただし、LLM ベースのエージェントには、特にリアルタイムの動的環境において、特定のターゲットの問題に対処するための専門知識がありません。
さらに、実際のシナリオで LLM ベースのエージェントを導入すると、コストと時間がかかる可能性があります。
一方、強化学習 (RL) は、ターゲット タスクに特化したエージェントをトレーニングするアプローチですが、多くの場合、サンプリング効率が低く、探索コストが高いという問題があります。
このペーパーでは、LLM ベースの教師エージェントからの指示を使用して、小規模で特化した学生 RL エージェントをトレーニングすることで、これらの課題に対処する新しいフレームワークを紹介します。
教師エージェントからのガイダンスを組み込むことにより、学生エージェントは LLM の事前知識を独自のモデルに抽出できます。
その結果、スチューデント エージェントは大幅に少ないデータでトレーニングできます。
さらに、環境フィードバックによるさらなるトレーニングを通じて、スチューデント エージェントは、目標タスクを完了する教師の能力を上回ります。
私たちは、フレームワークの有効性を評価するために、具体化された AI 研究のために特別に設計された、挑戦的な MiniGrid および Habitat 環境で実験を実施しました。
この結果は、私たちのアプローチが強力なベースライン手法と比較して優れたパフォーマンスを達成していることを明確に示しています。
私たちのコードは https://github.com/ZJLAB-AMMI/LLM4Teach で入手できます。

要約(オリジナル)

Recent studies have uncovered the potential of Large Language Models (LLMs) in addressing complex sequential decision-making tasks through the provision of high-level instructions. However, LLM-based agents lack specialization in tackling specific target problems, particularly in real-time dynamic environments. Additionally, deploying an LLM-based agent in practical scenarios can be both costly and time-consuming. On the other hand, reinforcement learning (RL) approaches train agents that specialize in the target task but often suffer from low sampling efficiency and high exploration costs. In this paper, we introduce a novel framework that addresses these challenges by training a smaller, specialized student RL agent using instructions from an LLM-based teacher agent. By incorporating the guidance from the teacher agent, the student agent can distill the prior knowledge of the LLM into its own model. Consequently, the student agent can be trained with significantly less data. Moreover, through further training with environment feedback, the student agent surpasses the capabilities of its teacher for completing the target task. We conducted experiments on challenging MiniGrid and Habitat environments, specifically designed for embodied AI research, to evaluate the effectiveness of our framework. The results clearly demonstrate that our approach achieves superior performance compared to strong baseline methods. Our code is available at https://github.com/ZJLAB-AMMI/LLM4Teach.

arxiv情報

著者 Zihao Zhou,Bin Hu,Chenyang Zhao,Pu Zhang,Bin Liu
発行日 2024-04-22 15:17:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク