要約
探索は、自己改善と自由な問題解決にとって重要なスキルです。
ただし、大規模な言語モデルが状態空間を効果的に探索できるかどうかは依然として不確実です。
既存の評価は主に、探索と搾取の間のトレードオフに焦点を当てており、多くの場合、多腕バンディットの問題で評価されます。
対照的に、この作業は探索を唯一の目的として分離し、エージェントに将来の利益を高める情報を提供する任務を与えます。
評価のために、すでに探索された状態で達成可能な最適な収益を測定することにより、不足している報酬を探索と活用のコンポーネントに分解することを提案します。
さまざまな LLM を使った実験では、ほとんどのモデルが状態空間を十分に探索するのに苦労しており、弱い探索では不十分であることが明らかになりました。
モデルのサイズと探査パフォーマンスの間には正の相関関係があり、モデルが大きいほど優れた機能が実証されていることが観察されています。
さらに、この分解により、プロンプト エンジニアリング中のエージェントの指示によって引き起こされる動作の違いについての洞察が得られ、探索的タスクにおける LLM のパフォーマンスを改善するための貴重なツールが提供されることを示します。
要約(オリジナル)
Exploration is a crucial skill for self-improvement and open-ended problem-solving. However, it remains uncertain whether large language models can effectively explore the state-space. Existing evaluations predominantly focus on the trade-off between exploration and exploitation, often assessed in multi-armed bandit problems. In contrast, this work isolates exploration as the sole objective, tasking the agent with delivering information that enhances future returns. For the evaluation, we propose to decompose missing rewards into exploration and exploitation components by measuring the optimal achievable return for the states already explored. Our experiments with various LLMs reveal that most models struggle to sufficiently explore the state-space and that weak exploration is insufficient. We observe a positive correlation between model size and exploration performance, with larger models demonstrating superior capabilities. Furthermore, we show that our decomposition provides insights into differences in behaviors driven by agent instructions during prompt engineering, offering a valuable tool for refining LLM performance in exploratory tasks.
arxiv情報
著者 | Tim Grams,Patrick Betz,Christian Bartelt |
発行日 | 2025-01-15 16:30:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google