要約
探索は、自己改善やオープンエンドな問題解決に欠かせないスキルである。しかし、大規模な言語モデルが、未知の環境内の状態空間を効果的に探索できるかどうかは依然として不明である。この研究では、探索を唯一の目的として分離し、エージェントに将来のリターンを高める情報を提供することを課している。このフレームワークの中で、エージェントのリターンを測定することは公正な評価のために十分ではないことを主張し、達成可能な最適なリターンに基づいて、不足している報酬を探索と開発の要素に分解する。様々なモデルを用いた包括的な実験により、ほとんどのモデルは状態空間を十分に探索することができず、弱い探索では不十分であることが明らかになった。パラメータ数と探索性能の間には正の相関があり、より大きなモデルが優れた能力を示すことが確認された。さらに、我々の分解が、プロンプトエンジニアリングによって駆動される動作の違いに関する洞察を提供し、探索タスクにおける性能を洗練させるための貴重なツールを提供することを示す。
要約(オリジナル)
Exploration is a crucial skill for self-improvement and open-ended problem-solving. However, it remains unclear if large language models can effectively explore the state-space within an unknown environment. This work isolates exploration as the sole objective, tasking the agent with delivering information that enhances future returns. Within this framework, we argue that measuring agent returns is not sufficient for a fair evaluation and decompose missing rewards into exploration and exploitation components based on the optimal achievable return. Comprehensive experiments with various models reveal that most struggle to sufficiently explore the state-space and weak exploration is insufficient. We observe a positive correlation between parameter count and exploration performance, with larger models demonstrating superior capabilities. Furthermore, we show that our decomposition provides insights into differences in behaviors driven by prompt engineering, offering a valuable tool for refining performance in exploratory tasks.
arxiv情報
著者 | Tim Grams,Patrick Betz,Christian Bartelt |
発行日 | 2025-02-03 15:17:44+00:00 |
arxivサイト | arxiv_id(pdf) |