Reinforcement Learning Problem Solving with Large Language Models

要約

大規模言語モデル (LLM) には世界の広範な知識がカプセル化されており、これによりさまざまなドメインでの適用が可能になり、さまざまな自然言語処理 (NLP) タスクのパフォーマンスが向上します。
これにより、意図された問題を解決するために、人間と AI システムの間の会話ベースの対話のパラダイムがよりアクセスしやすくなりました。
ただし、未開発の可能性を示す興味深い手段の 1 つは、対話型 RL 問題解決を可能にする強化学習 (RL) エージェントとして LLM を使用することです。
したがって、この研究では、LLM プロンプト タスクとしてマルコフ決定プロセス ベースの RL 問題を定式化するという概念を検討します。
特定の RL タスクのポリシーを学習して最適化するよう LLM に反復的に促す方法を示します。
さらに、LLM によって促進される、エピソード シミュレーションと Q ラーニングに導入されたプロンプト手法を活用します。
次に、「研究科学者」ワークフローと「法的事項の摂取」ワークフローに関する 2 つの詳細なケーススタディを通じて、アプローチの実用性を示します。

要約(オリジナル)

Large Language Models (LLMs) encapsulate an extensive amount of world knowledge, and this has enabled their application in various domains to improve the performance of a variety of Natural Language Processing (NLP) tasks. This has also facilitated a more accessible paradigm of conversation-based interactions between humans and AI systems to solve intended problems. However, one interesting avenue that shows untapped potential is the use of LLMs as Reinforcement Learning (RL) agents to enable conversational RL problem solving. Therefore, in this study, we explore the concept of formulating Markov Decision Process-based RL problems as LLM prompting tasks. We demonstrate how LLMs can be iteratively prompted to learn and optimize policies for specific RL tasks. In addition, we leverage the introduced prompting technique for episode simulation and Q-Learning, facilitated by LLMs. We then show the practicality of our approach through two detailed case studies for ‘Research Scientist’ and ‘Legal Matter Intake’ workflows.

arxiv情報

著者 Sina Gholamian,Domingo Huh
発行日 2024-04-29 12:16:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク