要約
言語モデル(LM)が自律的なエージェントとして運用されるようになるにつれ、その能力を正確に予測することが、社会への備えとして極めて重要になる。我々は、LMエージェントのダウンストリーム能力を予測する6つの予測手法を評価する。計算量やモデルのリリース日などの入力指標から直接ベンチマークスコアを予測する「ワンステップ」アプローチと、クロスベンチマークパフォーマンスの主成分(PC-1)や人間が評価した対戦Eloレーティングなどの中間指標を最初に予測する「ツーステップ」アプローチを用いる。我々は、OpenLLM 2 のリーダーボードから 38 個の LM のデータセットを用いてバックテストを行い、我々の予測手法を評価した。次に、検証された2ステップアプローチ(Release Date$to$Elo$to$Benchmark) を用いて、3つのベンチマークにおけるフロンティアモデルのLMエージェントのパフォーマ ンスを予測する:SWE-Bench Verified(ソフトウェア開発)、Cybench(サイバーセキュリティ評価)、RE-Bench(ML研究工学)である。我々の予測では、2026年初頭までに、能力抽出の低い非特化型LMエージェントはSWE-Bench Verifiedで54%の成功率に達するが、最先端のLMエージェントは87%の成功率に達する。我々のアプローチは、最近の推論-計算スケーリングの進歩を考慮していないため、保守的すぎる可能性がある。
要約(オリジナル)
As Language Models (LMs) increasingly operate as autonomous agents, accurately forecasting their capabilities becomes crucial for societal preparedness. We evaluate six forecasting methods that predict downstream capabilities of LM agents. We use ‘one-step’ approaches that predict benchmark scores from input metrics like compute or model release date directly or ‘two-step’ approaches that first predict an intermediate metric like the principal component of cross-benchmark performance (PC-1) and human-evaluated competitive Elo ratings. We evaluate our forecasting methods by backtesting them on a dataset of 38 LMs from the OpenLLM 2 leaderboard. We then use the validated two-step approach (Release Date$\to$Elo$\to$Benchmark) to predict LM agent performance for frontier models on three benchmarks: SWE-Bench Verified (software development), Cybench (cybersecurity assessment), and RE-Bench (ML research engineering). Our forecast predicts that by the beginning of 2026, non-specialized LM agents with low capability elicitation will reach a success rate of 54% on SWE-Bench Verified, while state-of-the-art LM agents will reach an 87% success rate. Our approach does not account for recent advances in inference-compute scaling and might thus be too conservative.
arxiv情報
著者 | Govind Pimpale,Axel Højmark,Jérémy Scheurer,Marius Hobbhahn |
発行日 | 2025-03-03 17:11:16+00:00 |
arxivサイト | arxiv_id(pdf) |