Large Language Models Are Semi-Parametric Reinforcement Learning Agents

要約

人間の記憶と推論メカニズムに関する認知科学の洞察に触発され、新しい進化可能な LLM ベース (大規模言語モデル) エージェント フレームワークが REMEMBERER として提案されています。
LLM に長期の経験記憶を装備することで、REMEMBERER は、異なるタスク目標に対しても過去のエピソードからの経験を活用することができ、固定の見本や一時的な作業記憶を備えた LLM ベースのエージェントよりも優れています。
さらに、記憶を更新するために経験記憶による強化学習 (RLEM) を導入します。
したがって、システム全体は成功と失敗の両方の経験から学習し、LLM のパラメーターを微調整することなくその機能を進化させることができます。
このようにして、提案されたREMEMBERERはセミパラメトリックRLエージェントを構成する。
提案されたフレームワークを評価するために、2 つの RL タスク セットに対して広範な実験が行われます。
異なる初期化セットとトレーニング セットでの平均結果は、2 つのタスク セットの成功率で以前の SOTA を 4% および 2% 上回っており、REMEMBERER の優位性と堅牢性を示しています。

要約(オリジナル)

Inspired by the insights in cognitive science with respect to human memory and reasoning mechanism, a novel evolvable LLM-based (Large Language Model) agent framework is proposed as REMEMBERER. By equipping the LLM with a long-term experience memory, REMEMBERER is capable of exploiting the experiences from the past episodes even for different task goals, which excels an LLM-based agent with fixed exemplars or equipped with a transient working memory. We further introduce Reinforcement Learning with Experience Memory (RLEM) to update the memory. Thus, the whole system can learn from the experiences of both success and failure, and evolve its capability without fine-tuning the parameters of the LLM. In this way, the proposed REMEMBERER constitutes a semi-parametric RL agent. Extensive experiments are conducted on two RL task sets to evaluate the proposed framework. The average results with different initialization and training sets exceed the prior SOTA by 4% and 2% for the success rate on two task sets and demonstrate the superiority and robustness of REMEMBERER.

arxiv情報

著者 Danyang Zhang,Lu Chen,Situo Zhang,Hongshen Xu,Zihan Zhao,Kai Yu
発行日 2023-10-30 01:52:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク