Large Language Model is a Good Policy Teacher for Training Reinforcement Learning Agents

要約

最近の研究では、大規模言語モデル (LLM) を使用して、高レベルの命令を提供することで、複雑な逐次意思決定タスクを解決できることが示されています。
ただし、LLM ベースのエージェントは、特定のターゲットの問題を解決する専門性が欠けているため、リアルタイムの動的環境では制限に直面します。
さらに、実際のシナリオでは、このような LLM ベースのエージェントの導入にはコストと時間がかかります。
このペーパーでは、LLM ベースの教師エージェントからの指示を使用して、小規模の専門学生エージェントをトレーニングすることで、これらの課題に対処する新しいフレームワークを紹介します。
教師が提供するガイド付きアクションを活用することで、LLM の事前知識がローカルの生徒モデルに抽出されます。
その結果、スチューデント エージェントは大幅に少ないデータでトレーニングできます。
さらに、環境フィードバックを使用したその後のトレーニングにより、学生エージェントは教師の能力を超えることができます。
私たちは、フレームワークの有効性を評価するために、3 つの困難な MiniGrid 環境で実験を実施しました。
結果は、私たちのアプローチがサンプル効率を高め、ベースライン方法と比較して優れたパフォーマンスを達成することを示しています。

要約(オリジナル)

Recent studies have shown that Large Language Models (LLMs) can be utilized for solving complex sequential decision-making tasks by providing high-level instructions. However, LLM-based agents face limitations in real-time dynamic environments due to their lack of specialization in solving specific target problems. Moreover, the deployment of such LLM-based agents is both costly and time-consuming in practical scenarios. In this paper, we introduce a novel framework that addresses these challenges by training a smaller scale specialized student agent using instructions from an LLM-based teacher agent. By leveraging guided actions provided by the teachers, the prior knowledge of the LLM is distilled into the local student model. Consequently, the student agent can be trained with significantly less data. Furthermore, subsequent training with environment feedback empowers the student agents to surpass the capabilities of their teachers. We conducted experiments on three challenging MiniGrid environments to evaluate the effectiveness of our framework. The results demonstrate that our approach enhances sample efficiency and achieves superior performance compared to baseline methods.

arxiv情報

著者 Zihao Zhou,Bin Hu,Pu Zhang,Chenyang Zhao,Bin Liu
発行日 2023-11-22 13:15:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク