要約
強化学習 (RL) は、意思決定の問題において顕著な成功を収めていますが、多くの場合、環境との相互作用が必要であり、報酬が少ない環境では、有意義なポリシーを学習することが困難です。
大規模言語モデル (LLM) は、学習ポリシーにおいてエージェントに貴重なガイダンスを提供できる可能性があり、それによってそのような環境での RL アルゴリズムのパフォーマンスが向上します。
ただし、LLM は下流のタスクを理解することが困難になることが多く、そのため、これらのタスクでエージェントを最適に支援する能力が妨げられます。
この問題を軽減する一般的なアプローチは、タスク関連データを使用して LLM を微調整し、RL エージェントに有用なガイダンスを提供できるようにすることです。
ただし、このアプローチには、アクセスできないモデルの重みや大量の計算リソースの必要性など、いくつかの問題があり、非現実的です。
この作業では、アダプター モデルを組み込むことで RL アルゴリズムと LLM 間のより良い接続を構築するフレームワークである RLAdapter を紹介します。
RLAdapter フレームワーク内では、RL エージェントのトレーニング プロセス中に生成された情報を使用して軽量言語モデルを微調整することで、LLM が下流のタスクに適応するのに大幅に役立ち、それによって RL エージェントにより良いガイダンスが提供されます。
Crafter 環境で RLAdapter を評価する実験を実施しました。その結果、RLAdapter が SOTA ベースラインを上回っていることがわかりました。
さらに、私たちのフレームワークに基づくエージェントは、ベースライン モデルには存在しない常識的な動作を示します。
要約(オリジナル)
While reinforcement learning (RL) shows remarkable success in decision-making problems, it often requires a lot of interactions with the environment, and in sparse-reward environments, it is challenging to learn meaningful policies. Large Language Models (LLMs) can potentially provide valuable guidance to agents in learning policies, thereby enhancing the performance of RL algorithms in such environments. However, LLMs often encounter difficulties in understanding downstream tasks, which hinders their ability to optimally assist agents in these tasks. A common approach to mitigating this issue is to fine-tune the LLMs with task-related data, enabling them to offer useful guidance for RL agents. However, this approach encounters several difficulties, such as inaccessible model weights or the need for significant computational resources, making it impractical. In this work, we introduce RLAdapter, a framework that builds a better connection between RL algorithms and LLMs by incorporating an adapter model. Within the RLAdapter framework, fine-tuning a lightweight language model with information generated during the training process of RL agents significantly aids LLMs in adapting to downstream tasks, thereby providing better guidance for RL agents. We conducted experiments to evaluate RLAdapter in the Crafter environment, and the results show that RLAdapter surpasses the SOTA baselines. Furthermore, agents under our framework exhibit common-sense behaviors that are absent in baseline models.
arxiv情報
著者 | Wanpeng Zhang,Zongqing Lu |
発行日 | 2023-09-29 12:16:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google