LLMs Are In-Context Bandit Reinforcement Learners

要約

大規模な言語モデル(LLMS)は、モデルコンテキストに注釈付き例を追加することに依存する監視された学習手法であるコンテキスト内学習(ICL)で優れています。
監視されたデータではなく、外部報酬からモデルがオンラインで学習するコンテキスト内強化学習(ICRL)のコンテキスト盗賊版を調査します。
LLMSはそのような学習を効果的に実証し、現象の詳細な研究を提供し、500mから70Bのパラメーターのサイズの挑戦的な分類タスクとモデルを実験することを示します。
これには、プロセスの不安定性の特定と対処、セマンティックラベルと抽象的なラベルの両方で学習を実証し、スケーリングの傾向を示すことが含まれます。
私たちの調査結果は、LLMSのICRL機能を強調し、エラーに関する暗黙の推論における基本的な制限も強調しています。

要約(オリジナル)

Large Language Models (LLMs) excel at in-context learning (ICL), a supervised learning technique that relies on adding annotated examples to the model context. We investigate a contextual bandit version of in-context reinforcement learning (ICRL), where models learn in-context, online, from external reward, instead of supervised data. We show that LLMs effectively demonstrate such learning, and provide a detailed study of the phenomena, experimenting with challenging classification tasks and models of sizes from 500M to 70B parameters. This includes identifying and addressing the instability of the process, demonstrating learning with both semantic and abstract labels, and showing scaling trends. Our findings highlight ICRL capabilities in LLMs, while also underscoring fundamental limitations in their implicit reasoning about errors.

arxiv情報

著者 Giovanni Monea,Antoine Bosselut,Kianté Brantley,Yoav Artzi
発行日 2025-01-31 18:58:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク