要約
大規模な言語モデル(LLM)は、複雑な推論を必要とするタスクにますます使用されています。
ほとんどのベンチマークは最終的な結果に焦点を当てていますが、リソースの制約の下での計画、改訂、意思決定など、中間の推論ステップを見落としています。
これらの内部プロセスを測定することは、モデルの動作を理解し、信頼性を向上させるために不可欠であると主張します。
戦略的なゲームを自然評価環境として使用することを提案します:明確な状態、限られたリソース、自動フィードバックを備えた閉鎖されたルールベースのシステム。
計画、改訂、およびリソースに制約のある意思決定という3つのコアディメンションに沿ってLLMを評価するフレームワークを紹介します。
これを運用するために、過補正リスク率、修正成功率、改善勾配、予算過剰比など、勝利率を超えたメトリックを定義します。
12の主要なモデルにわたる4320の敵対的なラウンドで、ChatGpt-O3-Miniはトップコンポジットスコアを達成し、勝利率は74.7%、修正成功率は78.6%、0.041の改善が行われます。
対照的に、Qwen -Plusは、81.6%の過補正リスク率にもかかわらず、その試合の25.6%しか勝ちません – 主に過剰なリソースの使用によるものです。
また、過補正リスク率と補正の成功率の間に負の相関関係が観察され(ピアソンr = -0.51、p = 0.093)、より頻繁な編集が常に結果を改善するとは限らないことを示唆しています。
私たちの調査結果は、LLMSが決定することだけでなく、それらがそれらの決定にどのように到達するかを評価することの価値を強調しています
要約(オリジナル)
Large language models (LLMs) are increasingly used for tasks that require complex reasoning. Most benchmarks focus on final outcomes but overlook the intermediate reasoning steps – such as planning, revision, and decision making under resource constraints. We argue that measuring these internal processes is essential for understanding model behavior and improving reliability. We propose using strategic games as a natural evaluation environment: closed, rule-based systems with clear states, limited resources, and automatic feedback. We introduce a framework that evaluates LLMs along three core dimensions: planning, revision, and resource-constrained decision making. To operationalize this, we define metrics beyond win rate, including overcorrection risk rate, correction success rate, improvement slope, and over-budget ratio. In 4320 adversarial rounds across 12 leading models, ChatGPT-o3-mini achieves the top composite score, with a win rate of 74.7 percent, a correction success rate of 78.6 percent, and an improvement slope of 0.041. By contrast, Qwen-Plus, despite an overcorrection risk rate of 81.6 percent, wins only 25.6 percent of its matches – primarily due to excessive resource use. We also observe a negative correlation between overcorrection risk rate and correction success rate (Pearson r = -0.51, p = 0.093), suggesting that more frequent edits do not always improve outcomes. Our findings highlight the value of assessing not only what LLMs decide but how they arrive at those decisions
arxiv情報
著者 | Xiaopeng Yuan,Xingjian Zhang,Ke Xu,Yifan Xu,Lijun Yu,Jindong Wang,Yushun Dong,Haohan Wang |
発行日 | 2025-06-13 17:59:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google