要約
大規模言語モデル(LLM)は様々な領域で大きな成功を収めている。しかし、複雑な意思決定タスクへの適用には、複雑なプロンプトエンジニアリングやファインチューニングが必要になることが多く、目に見えない下流タスクへの挑戦や計算リソースへの大きな要求につながる。一方、強化学習(RL)は意思決定問題に有効であると認識されているが、オープンワールドゲームのような報酬が疎な環境では苦戦している。これらの課題を克服するために、我々はLLMとRLフィードバックの相乗効果を強化するために設計された新しいフレームワークであるAdaRefinerを紹介する。AdaRefinerの主要コンポーネントは軽量なアダプタ言語モデル(LM)であり、RLエージェントからのフィードバックに基づいてタスクの理解度を自動的に改良する。この手法により、LLMの汎化能力を維持しながら、複雑なプロンプトエンジニアリングや集中的なLLMの微調整の必要性を軽減し、下流タスクにおけるLLMの意思決定能力を向上させる。オープンワールドゲーム「クラフター」内の22の多様なタスクを対象としたAdaRefinerの実証評価により、特にエージェントをより高度で常識的なスキルに導く上で優れた有効性が実証された。我々の研究は、RLフィードバックによるLLMの自動的な自己洗練に貢献し、複雑な意思決定問題に対してより適応的で効率的なソリューションを提供する。
要約(オリジナル)
Large Language Models (LLMs) have demonstrated significant success across various domains. However, their application in complex decision-making tasks frequently necessitates intricate prompt engineering or fine-tuning, leading to challenges in unseen downstream tasks and heavy demands on computational resources. Meanwhile, Reinforcement Learning (RL) has been recognized as effective in decision-making problems but struggles in environments with sparse rewards, such as open-world games. To overcome these challenges, we introduce AdaRefiner, a novel framework designed to enhance the synergy between LLMs and RL feedback. The key component of AdaRefiner is a lightweight Adapter Language Model (LM), which automatically refines task comprehension based on feedback from RL agents. This method mitigates the need for intricate prompt engineering and intensive LLM fine-tuning while maintaining the LLMs’ generalization abilities and enhancing their decision-making capabilities in downstream tasks. Empirical evaluations of AdaRefiner on 22 diverse tasks within the open-world game Crafter have demonstrated its superior effectiveness, especially in guiding agents towards higher-level and common-sense skills. Our work makes contributions to the automatic self-refinement of LLMs with RL feedback, offering a more adaptable and efficient solution for complex decision-making problems.
arxiv情報
著者 | Wanpeng Zhang,Zongqing Lu |
発行日 | 2024-05-03 08:24:12+00:00 |
arxivサイト | arxiv_id(pdf) |