要約
強化学習 (RL) は、マルコフ意思決定プロセス (MDP) を使用して意思決定を数学的に定式化します。
MDP を使用することで、研究者はゲーム、ロボット工学、言語モデルなどのさまざまな分野で目覚ましい進歩を遂げてきました。
この論文は、従来の MDP を自然言語ベースの表現空間に拡張することにより、自然言語強化学習 (NLRL) という新しい可能性を模索します。
具体的には、NLRL は、タスクの目標、ポリシー、価値関数、ベルマン方程式、ポリシーの反復などの RL 原則を、対応する言語に革新的に再定義します。
大規模言語モデル (LLM) の最近の進歩により、NLRL を実際に実装して、純粋なプロンプトまたは勾配ベースのトレーニングによって RL のようなポリシーと価値の向上を実現できます。
迷路、ブレークスルー、三目並べゲームの実験では、多様な使用例における NLRL フレームワークの有効性、効率性、解釈可能性を実証しています。
私たちのコードは https://github.com/waterhorse1/Natural- language-RL でリリースされます。
要約(オリジナル)
Reinforcement Learning (RL) mathematically formulates decision-making with Markov Decision Process (MDP). With MDPs, researchers have achieved remarkable breakthroughs across various domains, including games, robotics, and language models. This paper seeks a new possibility, Natural Language Reinforcement Learning (NLRL), by extending traditional MDP to natural language-based representation space. Specifically, NLRL innovatively redefines RL principles, including task objectives, policy, value function, Bellman equation, and policy iteration, into their language counterparts. With recent advancements in large language models (LLMs), NLRL can be practically implemented to achieve RL-like policy and value improvement by either pure prompting or gradient-based training. Experiments over Maze, Breakthrough, and Tic-Tac-Toe games demonstrate the effectiveness, efficiency, and interpretability of the NLRL framework among diverse use cases. Our code will be released at https://github.com/waterhorse1/Natural-language-RL.
arxiv情報
著者 | Xidong Feng,Ziyu Wan,Haotian Fu,Bo Liu,Mengyue Yang,Girish A. Koushik,Zhiyuan Hu,Ying Wen,Jun Wang |
発行日 | 2024-11-21 15:57:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google