Beyond Numeric Awards: In-Context Dueling Bandits with LLM Agents

要約

インコンテキスト強化学習 (ICRL) は、基礎モデル時代の強化学習の問題を解決するためのフロンティア パラダイムです。
ICRL の機能は、タスク固有のトレーニングを通じてトランスフォーマーで実証されていますが、すぐに使える大規模言語モデル (LLM) の可能性はほとんど解明されていません。
最近の調査結果では、LLM が数値的なコンテキストを扱う際に課題に直面することが多く、環境によって生成される選好フィードバックを介して LLM のパフォーマンスを評価することにはあまり注意が払われていないことが浮き彫りになっています。
この論文は、嗜好フィードバックをクエリすることで古典的な Multi-Armed Bandit (MAB) モデルを拡張する、ステートレスな嗜好ベースの強化学習設定である Dueling Bandits (DB) の問題の下で、コンテキスト内の意思決定者としての LLM を初めて調査したものです。

GPT-3.5 Turbo、GPT-4、GPT-4 Turbo、Llama 3.1、および o1-Preview を 9 つの十分に確立された DB アルゴリズムと比較します。
私たちの結果は、最高のパフォーマンスを誇る LLM である GPT-4 Turbo が、決闘で最良の腕を素早く組み込むことによって、すべての DB 環境インスタンスにわたって驚くほど低い弱い後悔を達成する、ゼロショットの相対的意思決定能力を備えていることを明らかにしました。
ただし、強い後悔の点で、LLM と従来の DB アルゴリズムの間には最適性のギャップが存在します。
LLM は、明示的に指示された場合でも、収束して一貫して利用するのに苦労し、プロンプトの変化に敏感です。
このギャップを埋めるために、私たちはエージェント フロー フレームワークである LLM with Enhanced Algorithmic Dueling (LEAD) を提案します。これは、きめ細かい適応相互作用を通じて、既製の DB アルゴリズムと LLM エージェントを統合します。
LEAD には、弱い後悔と強い後悔の両方について、古典的な DB アルゴリズムから継承された理論的な保証があることを示します。
騒々しい敵対的なプロンプトに対しても、その有効性と堅牢性を検証します。
私たちのフレームワークの設計は、コンテキスト内の意思決定に使用される LLM の信頼性を高める方法を明らかにします。

要約(オリジナル)

In-context reinforcement learning (ICRL) is a frontier paradigm for solving reinforcement learning problems in the foundation model era. While ICRL capabilities have been demonstrated in transformers through task-specific training, the potential of Large Language Models (LLMs) out-of-the-box remains largely unexplored. Recent findings highlight that LLMs often face challenges when dealing with numerical contexts, and limited attention has been paid to evaluating their performance through preference feedback generated by the environment. This paper is the first to investigate LLMs as in-context decision-makers under the problem of Dueling Bandits (DB), a stateless preference-based reinforcement learning setting that extends the classic Multi-Armed Bandit (MAB) model by querying for preference feedback. We compare GPT-3.5 Turbo, GPT-4, GPT-4 Turbo, Llama 3.1, and o1-Preview against nine well-established DB algorithms. Our results reveal that our top-performing LLM, GPT-4 Turbo, has the zero-shot relative decision-making ability to achieve surprisingly low weak regret across all the DB environment instances by quickly including the best arm in duels. However, an optimality gap exists between LLMs and classic DB algorithms in terms of strong regret. LLMs struggle to converge and consistently exploit even when explicitly prompted to do so, and are sensitive to prompt variations. To bridge this gap, we propose an agentic flow framework: LLM with Enhanced Algorithmic Dueling (LEAD), which integrates off-the-shelf DB algorithms with LLM agents through fine-grained adaptive interplay. We show that LEAD has theoretical guarantees inherited from classic DB algorithms on both weak and strong regret. We validate its efficacy and robustness even with noisy and adversarial prompts. The design of our framework sheds light on how to enhance the trustworthiness of LLMs used for in-context decision-making.

arxiv情報

著者 Fanzeng Xia,Hao Liu,Yisong Yue,Tongxin Li
発行日 2025-01-02 13:49:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク