要約
現実世界の逐次的意思決定は、報酬がまばらで意思決定空間が大きいという特徴があり、$\textit{tabula rasa}$ 強化学習 (RL) エージェントのような経験学習システムにとっては大きな困難をもたらします。
大規模言語モデル (LLM) は世界の知識を豊富に備えているため、RL エージェントが迅速に学習し、配布の変化に適応するのに役立ちます。
この作業では、事前トレーニングされた言語モデル ( GUIDE と呼ばれる) を使用して RL エージェント (EXPLORER と呼ばれる) に意思決定レベルのガイダンスを提供する、Language Guided Exploration (LGE) フレームワークを導入します。
ScienceWorld (Wang et al.,2022) という困難なテキスト環境では、LGE が通常の RL エージェントよりも大幅に優れたパフォーマンスを示し、また、Behavior Cloning や Text Decision Transformer などの他の洗練された手法よりも優れていることが観察されています。
要約(オリジナル)
Real-world sequential decision making is characterized by sparse rewards and large decision spaces, posing significant difficulty for experiential learning systems like $\textit{tabula rasa}$ reinforcement learning (RL) agents. Large Language Models (LLMs), with a wealth of world knowledge, can help RL agents learn quickly and adapt to distribution shifts. In this work, we introduce Language Guided Exploration (LGE) framework, which uses a pre-trained language model (called GUIDE ) to provide decision-level guidance to an RL agent (called EXPLORER). We observe that on ScienceWorld (Wang et al.,2022), a challenging text environment, LGE outperforms vanilla RL agents significantly and also outperforms other sophisticated methods like Behaviour Cloning and Text Decision Transformer.
arxiv情報
著者 | Hitesh Golchha,Sahil Yerawar,Dhruvesh Patel,Soham Dan,Keerthiram Murugesan |
発行日 | 2024-03-05 17:26:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google